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内 容 拓 要 


本 书 是 一 本 Apache Hive 的 编程 指南， 则 在 介绍 如 何 使 用 Hive 的 SQL 
方法 一 一 HiveQL 来 汇总 、 查 询 和 分 析 存 储 在 Hadoop 分 布 式 文件 系统 上 
的 大 数据 集合 。 全 书 通过 大 量 的 实例 ， 首 先 介 绍 如 何在 用 户 环境 下 安装 
和 配置 Hive， 并 对 Hadoop 和 MapReduce 进 行 详尽 前 述 ， 最 终 演 示 Hive 如 
何在 Hadoop 生 态 系统 进行 工作 。 


本 书 适合 对 大 数据 感 兴趣 的 爱好 者 以 及 正在 使 用 Hadoop 系 统 的 数据 
库 管 理 员 阅读 使 用 。 











O'Reilly Media，Inc. 介 绍 


O’Reilly Media 通 过 图 书 、 杂 志 、 在 线 服务 、 调 查 研究 和 会 议 等 方 
式 传播 创新 知识 。 自 1978 年 开始 ，O’Reilly 一 直 都 是 前 沿 发 展 的 见证 者 
和 推动 者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关注 真正 重要 的 技术 趋 
势 一 一 通过 放大 那些 “细微 的 信号 ”来 刺激 社会 对 新 科技 的 应 用 。 作 为 技 
ae eed eee 


O'Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”; 创建 第 一 个 商业 
网 站 CGNN) ; 组 织 了 影响 深远 的 开放 源 代码 峰会 ， 以 至 于 开源 软件 运 
动 以 此 命名 ; 创立 了 《Make》 杂 志 ， 从 而 成 为 DIY 音 命 的 主要 先锋 ， 公 
司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽带 。O’”Reilly 的 会 议和 峰 
会 集聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描绘 出 开创 新 产业 
的 革命 性 思想 。 作 为 技术 人 士 获取 信息 的 选择 ，O'Reilly 现 在 还 将 先锋 
专家 的 知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 、 在 线 服务 
或 者 面授 谍 程 ， 每 一 项 O'Reilly 的 产品 都 反映 了 公司 不 可 动 播 的 理念 
信息 是 激发 创新 的 力量 。 


























业界 评论 
“O’Reilly Radar Ñ KA O EI. ” 
Wired 


“O’Reilly 凭 借 一 系列 (真希 望 当 初 我 也 想到 了 ) 非凡 想法 建 并 了 数 
百 万 美元 的 业务 。” 





Business 2.0 


“O’Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 





—CRN 
“一 本 O’Reilly 的 书 束 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 。” 
Irish Times 


“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 并 
日 切实 地 按照 Yogi Berra 的 建议 去 做 了 :“ “如果 你 在 路 上 遇 到 岔路 口 ， 走 
Ves (ATER) 。: 回 顾 过 去 Tim 似 乎 每 一 次 都 选择 了 小 路 ， 而 且 有 几 次 都 
是 一 内 即 逝 的 机 会 ， 尽 管 大 路 也 不 错 。” 








Linux Journal 





作者 简介 


Edward Capriolo 目 前 是 Media6degrees 公 司 的 系统 管理 员 ， 在 这 里 他 
为 互联 网 广告 企业 提供 设计 和 维护 分 布 式 数据 存储 系统 的 服务 。 


Edward 是 Apache 软 件 基金 会 的 成 员 ， 同 时 也 是 Hadoop/Hive 项 目的 
贡献 者 。Edward 具 有 软件 开发 经 验 ， 同 时 也 共有 Linux 和 网 络 管理 员 的 
经 历 ， 而 且 对 于 开源 软件 世界 充满 了 热情 。 


Dean Wampler 是 ThinkBigAnalytics 公 司 的 首席 顾问 ， 其 擅长 “大 数 
据 ” 文 件 ， 以 及 像 Hadoop 这 样 的 工具 研究 ， 还 有 机 器 学 习 相关 的 内 容 。 
除了 擅长 大 数据 ， 他 还 擅长 Scala、JVM 生 态 系 统 、JavaScript、Ruby、 
函数 式 以 及 面 同 对 象 编程 ， 同 时 还 擅长 敏捷 方法 。Dean 经 党 性 地 在 工业 
OR 他 还 具有 来 自 华 盛 顿 大 学 的 物理 学 
博士 学 位 。 


Jason Rutherglen 是 Think Big Analytics 公 司 的 一 名 软件 架构 师 ， 其 擅 
长 大 数据 、Hadoop、 搜 索 和 安全 领域 。 

















作者 序 


Edward Capriolo 


当 我 第 一 次 参与 到 Hadoop 里 时 ， 我 看 到 了 分 布 式 文件 系统 和 
MapReduce 计 算 框 架 可 以 以 一 种 伟大 的 方式 来 解决 计算 密集 型 的 问题 。 
然而 ， 使 用 MapReduce 编 程 模型 进行 编程 曾经 对 于 我 来 说 是 件 非常 旷 烦 
的 事情 。Hive 提 供 了 一 个 类 SQL 的 方式 可 以 让 我 快速 而 又 简单 地 利用 到 
MapReduce 计 算 的 优势 。 这 种 方法 也 使 得 概念 验证 应 用 程序 原型 设计 变 
得 容易 ， 同 时 在 内 部 可 以 很 好 地 使 用 Hadoop 作 为 解决 方案 。 尺 管 我 现在 
e OI? TRIO eo a 
we 

能 够 参与 编写 一 本 关于 Hive 的 书 ， 对 我 来 说 是 一 件 非常 采光 的 事 
情 ; 同时 能 够 作为 一 名 Hive 代 码 页 献 者 和 Apache 软 件 基金 会 的 成 员 也 是 
我 最 有 价值 的 荣誉 。 

















Dean Wampler 


作为 Think Big Analytics 公 司 的 一 名 “大 数据 ”顾问 ， 我 经 党 和 一 群 具 
有 丰富 经 验 的 SQL“ 数 据 人 ”一 起 工作 。 对 他 们 来 说 ， 使 用 Hive 是 必要 日 
充分 的 ， 这 样 才 能 使 用 Hadoop 作 为 可 行 的 工具 ， 并 利用 他 们 的 SQL 知 识 
来 使 用 数据 分 析 ， 开 创新 的 机 遇 。 


Hive 缺 乏 良 好 的 文档 。 我 向 O’Reilly 出 版 社 的 编辑 Mike Loukides 建 
议 ， 社 区 确实 需要 一 本 Hive 相 关 的 书籍 。 于 是 ， 本 书 应 运 而 生 .……. 


Jason Rutherglen 


我 是 Think Big Analytics 公 司 的 一 名 软件 架构 师 。 我 的 职业 生涯 涉 
一 系列 的 技术 ， 包 括 搜索 、Hadoop、 移 动 、 密 码 学 和 自然 语言 处 理 。 
Hive 是 使 用 开源 技术 ， 基 于 海量 数据 构建 数据 仓库 的 最 终 方式 。 我 在 很 
多 不 同 的 项 目 中 使 用 了 Hive。 

















致谢 


感谢 参与 到 Hive 中 的 每 一 个 人 。 包 括 代 人 码 页 献 者 、 参 与 者 以 及 最 终 
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HIDA 


Mark Grove 编 写 了 Hive 和 亚马逊 网 络 服务 那 一 章 的 内 容 。 他 是 一 个 
Apache Hive 项 目的 贡献 者 并 在 Hive IRC 上 非常 积极 地 帮助 他 人 。M6D 
公司 的 David Ha 和 Rumit Pate 页 献 了 案例 研究 章节 的 内 容 和 等 级 函数 的 
代码 。 在 Hive 中 可 以 进行 排名 是 一 个 重要 的 特性 。 


M6D 公 司 的 Stitelman， 页 献 了 案例 研究 音节 中 关于 数据 科学 如 何 使 
用 Hive 和 R 的 内 容 ， 其 中 演示 了 如 何 通 过 Hive 对 大 数据 集 进行 一 次 处 理 
ee 然后 在 之 后 的 处 理 过 程 中 使 用 R 处 理 Hive 产 生 的 
结 朱 数据 。 


David Funk 页 献 了 3 个 用 例 ， 即 : 站 内 引用 链接 识别 、 会 话 化 、 计 
数 独立 用 户 访问 量 。David 的 技术 说 明 展 示 了 如 何 重 写 和 优化 Hive 碍 询 
可 以 使 数据 分 析 效 率 得 到 大 幅度 提高 。Ian Robertson! b S APNI 
稿 并 提供 非 第 有 用 的 反馈 信息 。 我 们 非常 感谢 他 ， 在 时 间 很 紧 的 短 时 间 
内 提供 了 这 些 反 馈 。 


John Sichi 对 本 书 进行 了 专业 技术 评审 。John 同 时 也 帮助 开发 了 
Hive 中 的 一 些 新 特性 ， 例 如 StorageHandlers 和 索引 支持 。 他 一 直 积 极 帮 
助 文 持 Hive 社 区 的 成 长 。 


Alan Gates，《Pig 编 程 指南 》 的 作者 ， 贡 献 了 关于 HCatalog 的 那 一 
章 内 容 。Nanda Vijaydev 贡 献 了 关于 Karmasphere 公 司 如 何 将 Hive 进 行 增 
强 并 提供 产品 化 的 那 一 章 内 容 。Eric Lubow 提 供 了 关于 SimpleReach 公 司 
的 案例 研究 。Chris A. Mattmann, Paul Zimdars、 Cameron Goodale, 
Andrew F. Hart, Jinwon Kim, Duane Waliser 和 Peter Lean 共 同 贡 献 了 美 
国 宇航 局 喷气 推进 实验 室 (NASA JPL) 的 案例 研究 。 


ETMEN 
HJ A 
本 书 是 一 本 Hive 的 编程 指南 。Hive 是 Hadoop 生 态 系统 中 必 不 可 少 的 





一 个 工具 ， 它 提供 了 一 种 SQL 〈 结 构 化 查询 语言 ) 方言 ， 可 以 查询 存储 
在 Hadoop 分 布 式 文件 系统 CHDFS) 中 的 数据 或 其 他 和 Hadoop 集 成 的 文 
件 系统 ， 如 MapR-FS、Amazon 的 S3 和 像 HBase (Hadoop 数 据 库 ) 和 
Cassandra 这 样 的 数据 库 中 的 数据 。 


大 多 数 数据 仓库 应 用 程序 都 是 使 用 关系 数据 库 进 行 实现 的 ， 并 使 用 
SQL 作为 查询 语言 。Hive 降 低 了 将 这 些 应 用 程序 转移 到 Hadoop 系 统 上 的 
难度 。 凡 是 会 使 用 SQL 语言 的 开发 人 员 都 可 以 很 轻松 地 学 习 并 使 用 
Hive。 如 果 没 有 Hive， 那 么 这 些 用 户 束 必须 学 习 新 的 语言 和 工具 ， 人 然后 
才能 应 用 到 生产 环境 中 。 另 外 ， 相 比 其 他 工具 ，Hive 更 便于 开发 人 员 将 
基于 SQL 的 应 用 程序 转移 到 Hadoop 中 。 如 果 没 有 Hive， 那 么 开发 者 将 面 
I 临 一 个 艰巨 的 挑战 ， 如 何 将 他 们 的 SQL 应 用 程序 移植 到 Hadoop 上 。 


不 过 ，Hive 和 其 他 基于 SQL 的 环境 还 是 有 一 些 差 异 的 。 如 今 ， 可 供 
Hive 用 户 和 Hadoop 开 发 者 使 用 的 文档 并 不 多 ， 所 以 我 们 决定 撰写 这 本 书 
来 填补 这 个 缺口 。 我 们 将 对 Hive 进 行 全 面 详 实 的 介绍 ， 主 要 适用 于 SQL 
专家 ， 如 数据 库 设 计 人 员 和 业务 分 析 师 。 我 们 也 谈 到 了 深入 的 技术 细 
节 ， 可 以 帮助 Hadoop 开 发 人 员 对 Hive 进 行 调 优 和 和 定制 。 


用 户 可 以 在 本 书 的 目录 页 面 了 解 到 更 多 信 
Æ: http://oreil.ly/Programming_ Hive. 








本 书 中 所 使 用 的 约定 
本 书 中 使 用 到 了 如 下 几 种 印刷 字体 。 





RAS 
表明 是 新 的 术语 、URL、 电 子 邮 件 地 址 、 文 件 名 或 者 文件 扩展 名 。 
等 宽 字 体 


用 于 程序 列表 ， 同 时 段落 中 使 用 到 的 了 程序 片段 ， 例 如 变量 或 者 函 
数 名 称 、 数 据 库 、 数 据 类 型 、 环 境 变量 、 语 句 和 关键 字 。 


等 览 粗 体 
表示 是 命令 或 者 其 他 需要 用 户 进行 输入 的 文本 。 
SEWERE 


a ee E E A 
到 的 值 。 


wa, 
Sa 
Sm 


这 个 图 标 表明 是 一 个 小 技巧 、 建 议 或 者 一 般 性 的 注释 。 


SS 


TS ae 
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使 用 的 代码 示例 


本 书 的 目的 是 帮助 用 户 完 成 他 们 的 任务 。 通 常情 况 下 ， 用 户 可 以 在 
他 们 的 程序 和 文档 中 使 用 本 书 中 的 代码 。 如 此 不 需要 联系 我 们 以 获取 许 
可 ， 除 非 明 显 地 复制 了 代码 的 大 部 分 内 容 。 例 如 ， 写 程序 用 到 了 本 书 中 
几 个 代码 片段 是 不 需要 获得 许可 的 ， 但 是 如 果 销 售 或 者 传播 包含 了 
O'Reilly 系 列 书 籍 中 的 例子 的 CD 光盘 ， 那 么 就 一 定 要 获得 我 们 的 许可 才 
行 。 在 回答 问题 时 引用 到 本 书 或 以 本 书 中 的 例子 为 引证 时 不 需要 获得 许 
可 ， 将 一 定数 量 的 样 例 代 码 复制 到 目 己 的 产品 文档 中 则 一 定 需要 获得 我 
们 的 许可 才 可 以 。 


虽然 并 非 是 必需 的 ， 但 如 宁可 以 注 明 出 处 ， 我 们 将 十 分 感激 。 出 处 
一 般 包 括 标题 ， 作 者 ， 出 版 商 和 ISBN。 例 如 : “Programming Hive by 
Edward Capriolo, Dean Wampler, and Jason Rutherglen (O’Reilly). 
Copyright 2012 Edward Capriolo, Aspect Research Associates, and Jason 
Rutherglen, 978-1-449-31933-5.” 


如 果 用 户 感觉 自己 没有 合理 地 或 者 在 如 上 所 述 的 许可 范围 内 使 用 本 
书 中 代码 样 例 的 话 ， 请 尽管 通过 permissions@oreilly.com 联 系 我 们 。 


























Safari@ 在 线 图 书 


Safarl 


Books Online 


Safari 在 线 图 书 是 一 个 按 需 服务 的 数字 图 书馆 。 使 用 它 ， 用 户 可 以 
ane 检索 超过 7 500 本 技术 和 创意 参考 书 以 及 视频 教程 ， 快 速 获得 想 知 
答案 。 


通过 订阅 ， 用 户 可 以 从 我 们 的 在 线 图 书馆 中 阅读 每 一 篇 文章 或 观看 
每 一 部 视频 。 通 过 用 户 的 手机 和 其 他 移动 设备 看 书 。 在 书 还 没有 印刷 前 
就 可 以 事先 看 到 书目 ， 还 可 以 看 到 正在 进行 中 的 草稿 ， 并 可 以 将 意见 反 
馈 给 作者 。 复 制 粘 贴 代码 样 例 ， 组 织 用 户 的 收藏 来 ， 下 载 一 些 章节 ， 对 
J 创建 笔记 ， 打 印 书 籍 内 容 ， 并 通过 其 他 众多 的 省 时 
功能 而 受益 


O'Reilly 公 司 已 经 将 本 书 上 传 到 Safari 图 书 在 线 服务 。 想 获得 对 这 本 
书 的 完整 数据 版 访问 权限 以 及 其 他 的 来 源 于 OReilly 和 其 他 出 版 商 的 对 
相同 话题 的 讨论 ， 请 通过 网 址 http://my.safaribooksonline.com 人 免费 注册 账 
ae 


如 何 联系 到 我 们 
请 将 对 于 本 书 的 评论 和 问题 通过 如 下 地 址 及 送 给 出 版 商 : 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 
800-998-9938 (in the United States or Canada) 
707-829-0515 (international or local) 
707-829-0104 (fax) 


在 本 书 的 官方 页 面 中 ， 我 们 列举 了 勘误 表 、 例 子 和 其 他 附加 信息 ， 
用 户 可 以 通过 以 下 链接 访问 : 


http://oreil.ly/Programming Hive 


ae 将 用 户 对 本 书 的 评论 或 技术 方面 的 问题 发 送 
给 我 们 : 


bookquestions@oreilly.com 


RGR ASE RT EAI BB. BN GVEA DAO Reilly 
公司 ， 请 通过 如 下 网 站 查看 : 


http://www.oreilly.com 
我 们 的 Fackbook 地 址 是 : http://facebook.com/oreilly 
我 们 的 Twitter 地 址 是 : http://twitter.com/oreillymedia 


我 们 的 YouTube 地 址 是 : http://www.youtube.com/oreillymedia 


第 1 章 ”基础 知识 


从 早期 的 互联 网 主流 大 爆 太 开始 ， 主 要 的 搜索 引 敬 公司 和 电子 商务 
公司 束 一 直 在 和 不 断 增 长 的 数据 进行 较量 。 最 近 ， 社 交 网 站 也 遇 到 了 同 
样 的 问题 。 如 今 ， 许 多 组 织 已 经 意识 到 他 们 所 收集 的 数据 是 让 他 们 了 解 
o fre tea WEA ETA ERIN AA pe ERAR ISE 


Hadoop 生 态 系 统 就 是 为 处 理 如 此 大 数据 集 而 产生 的 一 个 合乎 成 本 
效益 的 解决 方案 。Hadoop 实 现 了 一 个 特别 的 计算 模型 ， 也 就 
是 MapReduce， 其 可 以 将 计算 任务 分 割 成 多 个 处 理 单 元 然后 分 散 到 一 群 
家 用 的 或 服务 器 级 别 的 硬件 机 右上， 从 而 降低 成 本 并 提供 水 平 可 伸缩 
性 。 这 个 计算 模型 的 下 面 是 一 个 被 称 为 Hadoop 分 布 式 文件 系统 
CHDFS) 的 分 布 式 文件 系统 。 这 个 文件 系统 是 “可 插 拔 的 ”>， 而 且 现 在 
己 经 出 现 了 几 个 商用 的 和 开源 的 蔡 代 方案 。 


不 过 ， 仍 然 存 在 一 个 挑战 ， 那 束 是 用 户 如 何 从 一 个 现 有 的 数据 基础 
架构 转移 到 Hadoop 上 ， 而 这 个 基础 架构 是 基于 传统 关系 型 数据 库 和 结构 
化 碍 询 语句 (SQL) 的 。 对 于 大 量 的 SQL 用 户 《〈 包 括 专业 数据 库 设 计 师 
和 管理 员 ， 也 包括 那些 使 用 SQL 从 数据 仓库 中 抽取 信息 的 临时 用 户 〉 来 
说 ， 这 个 问题 又 将 如 何 解决 呢 ? 


这 就 是 Hive 出 现 的 原因 。Hive 提 供 了 一 个 被 称 为 Hive 查 询 语言 (人 简 
称 HiveQL 或 HQL) 的 SQL 方言 ， 来 查询 存储 在 Hadoop 集 群 中 的 数据 。 


SQL 知识 分 布 广泛 的 一 个 原因 是 : 它 是 一 个 可 以 有 效 地 、 合 理 地 且 
直观 地 组 织 和 使 用 数据 的 模型 。 即 使 对 于 经 验 丰 富 的 Java 开 发 工程 师 来 
说 ， 将 这 些 和 常见 的 数据 运算 对 应 到 底层 的 MapReduce Java API 也 是 令 人 
长 缩 的 。Hive 可 以 帮助 用 户 来 做 这 些 苦 活 ， 这 样 用 户 束 可 以 集中 精力 关 
注 于 碍 询 本 身 了 。Hive 可 以 将 大 多 数 的 查询 转换 为 MapReduce 任 务 

(job) ， 进 而 在 介绍 一 个 令 人 熟悉 的 SQL 抽象 的 同时 ， 拓 宽 Hadoop 的 
可 扩展 性 。 如 果 用 户 对 此 存在 疑惑 ， 请 参考 稍 后 部 分 的 第 1.3 节 “Java 和 
Hive: 词 频 统计 算法 ”中 的 相关 介绍 。 


Hive 最 适合 于 数据 仓库 应 用 程序 ， 使 用 该 应 用 程序 进行 相关 的 送 态 



































数据 分 析 ， 不 需要 快速 啊 应 给 出 结果 ， 而 且 数 据 本 里 不 会 频 蚂 变化 。 


Hive 不 是 一 个 完整 的 数据 库 。Hadoop 以 及 HDFS 的 设计 本 身 约束 和 
局 限 性 地 限制 了 Hive 所 能 胜任 的 工作 。 其 中 最 大 的 限制 就 是 Hive 不 文 持 
记录 级 别 的 更 新 、 插 入 或 者 删除 操作 。 但 是 用 户 可 以 通过 查询 生成 新 表 
或 者 将 查询 结果 导入 到 文件 中 。 同 时 ， 因 为 Hadoop 是 一 个 面向 批 处 理 的 
系统 ， 而 MapReduce 任 务 (job) 的 启动 过 程 需要 消耗 较 长 的 时 间 ， 所 以 
Hive 碍 询 延 时 比较 严重 。 传 统 数 据 库 中 在 秒 级 别 可 以 完成 的 查询 ， 在 
Hive 中 ， 即 使 数据 集 相 对 较 小 ， 往 往 也 需要 执行 更 长 的 时 间 叫 。 最 后 需 
要 说 明 的 是 ，Hive 不 支持 事务 。 


因此 ，Hive 不 支持 OLTP〔 联 机 事务 处 理 ) 所 需 的 关键 功能 ， 而 更 
接近 成 为 一 个 OLAP〔 联 机 分 析 技 术 〉 工具。 但 是 我 们 将 会 看 到 ， 由 于 
Hadoop 本 身 的 时 间 开 销 很 大 ， 并 且 Hadoop 所 被 设计 用 来 处 理 的 数据 规 
模 非 常 大 ， 因 此 提交 查询 和 返回 结果 是 可 能 具有 非常 大 的 延 时 的 ， 所 以 
Hive 并 没有 满足 OLAP 中 的 “联机 ”部 分 ， 至 少 目前 并 没有 满足 。 


如 果 用 户 需要 对 大 规模 数据 使 用 OLTP 功 能 的 话 ， 那 么 应 该 选择 使 
用 一 个 NoSQL 数 据 库 ， 例 如 ， 和 Hadoop 结 合 使 用 的 HBaset 及 
Cassandral3]。 如 果 用 户 使 用 的 是 Amazon 弹 性 MapReduce 计 算 系 统 
(EMR) 或 者 弹性 计算 云 服务 (EC2) 的 话 ， 也 可 以 使 用 
DynamoDB 员 。 用 户 甚 至 可 以 和 这 些 数据 库 〈 还 包括 其 他 一 些 数据 库 ) 
结合 来 使 用 Hive， 这 个 我 们 会 在 第 17 章 进行 介绍 。 


因此 ，Hive 是 最 适合 数据 仓库 应 用 程序 的 ， 其 可 以 维护 海量 数据 ， 
而 且 可 以 对 数据 进行 挖掘 ， 然 后 形成 意见 和 报告 等 。 


因为 大 多 数 的 数据 仓库 应 用 程序 是 使 用 基于 SQL 的 关系 型 数据 库 实 
现 的 ， 所 以 Hive 降 低 了 将 这 些 应 用 程序 移植 到 Hadoop 上 的 障碍 。 用 户 如 
东 懂 得 SQL， 那 么 学 习 使 用 Hive 将 会 很 容易 。 如 条 没有 Hive， 那 么 这 些 
用 户 就 需要 去 重新 学 习 新 的 语言 和 新 的 工具 后 才能 进行 生产 。 


同样 地 ， 相 对 于 其 他 Hadoop 语 言 和 工具 来 说 ，Hive 也 使 得 开发 者 将 
基于 SQL 的 应 用 程序 移植 到 Hadoop 变 得 更 加 容易 。 


不 过 ， 和 大 多 数 SQL 方言 一 样 ，HiveQL 并 不 符合 ANSI SQL 标准 ， 
其 和 Oracle，MySQL，SQL Server 支 持 的 常规 SQL 方 言 在 很 多 方面 存在 
差异 〈 不 过 ，HiveQL 和 MYySQL 提 供 的 SQL 方言 最 接近 ) 。 
































因此 ， 本 书 共有 两 个 目的 。 其 一 ， 本 书 提 供 了 一 个 针对 所 有 用 户 的 
介绍 。 这 个 介绍 会 比较 综合 ， 并 且 会 使 用 例子 来 进行 讲解 。 适 用 的 用 户 
包括 开 肥 者、 数据 库 管理 员 和 架构 师 ， 以 及 其 他 (如 商业 分 析 师 等 ) 非 
TARR F 


其 二 ， 本 书 针对 开发 者 和 Hadoop 管 理 员 等 需要 深入 了 解 Hive 技 术 细 
节 的 用 户 提供 了 更 详尽 的 讲述 ， 以 帮助 这 些 用 户 学 习 如 何 优化 Hive 碍 询 
性 能 ， 如 何 通过 用 户 自 定义 函数 和 自 定义 数据 格式 等 ， 来 个 性 化 使 用 


Hive. 


因为 Hive 缺 少 好 的 文档 ， 所 以 我 们 经 历 了 不 少 的 挫折 才 完 成 了 这 本 
书 。 特 别 是 对 于 那些 非 开 发 者 以 及 不 习惯 通过 查看 项 目 BUG 记 录 和 功能 
数据 库 、 源 代码 等 途径 来 获取 其 所 需 信息 的 用 户 ，Hive 并 没有 提供 好 的 
文档 。Hive Wikil5 提 供 的 信息 价值 很 大 ， 但 是 其 中 的 解释 有 时 太 少 了 ， 
而 且 第 第 没有 进行 及 时 的 更 新 。 我 们 希望 本 书 可 以 弥补 这 些 不 足 ， 可 以 
提供 一 个 对 于 Hive 的 所 有 基本 功能 以 及 如 何 高 效 使 用 这 些 功能 的 综合 性 
的 指南 9。 














1.1 Hadoop 和 MapReduce 绽 述 


如 果 用 户 已 经 熟悉 Hadoop 和 MapReduce 计 算 模 型 的 话 ， 那 么 可 以 跳 
过 本 节 。 虽 然 用 户 无 需 精 通 MapReduce 就 可 以 使 用 Hive， 但 是 理解 
MapReduce 的 基本 原理 将 帮 有 助 于 用 户 了 解 Hive 在 底层 是 如 何 运作 的 ， 
以 及 了 解 如 何 才 能 更 高 效 地 使 用 Hive。 


我 们 在 这 里 提供 了 一 个 关于 Hadoop 和 MapReduce 的 简要 描述 。 更 多 
细节 ， 请 参考 Tom White (O’Reilly) 所 著 的 《Hadoop 权 威 指南 》 一 书 。 


MapReduce 


MapReduce 是 一 种 计算 模型 ， 该 模型 可 将 大 型 数据 处 理 任 务 分 解 成 
很 多 单个 的 、 可 以 在 服务 器 集群 中 并 行 执行 的 任务 。 这 些 任务 的 计算 结 
果 可 以 合并 在 一 起 来 计算 最 终 的 结 


MapReduce 编 程 模型 是 由 谷歌 (Google) 开 发 的 。Google 通 过 一 篇 很 
有 影响 力 的 论文 对 这 个 计算 模型 进行 了 描述 ， 本 书 附录 部 分 可 查看 到 该 
论文 ， 名 为 《MapReduce: 大 数据 之 上 的 简化 数据 处 理 》。 一 年 后 ， 男 
一 篇 名 为 《Google 文 件 系统 》 的 论文 介绍 了 Google 文 件 系统 。 这 两 篇 论 
文 启发 了 道 : 卡 (Doug Cutting) 开发 了 Hadoop。 


MapReduce 这 个 术语 来 自 于 两 个 基本 的 数据 转换 操作 : map 过 程 和 
reduce 过 程 。 一 个 map 操 作 会 将 集合 中 的 元 素 从 一 种 形式 转换 成 男 一 种 
形式 。 在 这 种 情况 下 ， 输 入 的 键 - 值 对 会 被 转换 成 零 到 多 个 键 - 值 对 输 
> 输入 和 输出 的 键 必须 完全 不 同 ， 而 输入 和 输出 的 值 则 可 能 完 
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在 MapReduce 计 算 框架 中 ， 某 个 键 的 所 有 键 - 值 对 都 会 被 分 发 到 同一 
个 reduce 操 作 中 。 确 切 地 说 ， 这 个 键 和 这 个 键 所 对 应 的 所 有 值 都 会 被 传 
递 给 同一 个 Reducer。reduce 过 程 的 目的 是 将 值 的 集合 转换 成 一 个 值 〈 例 
如 对 一 组 数值 求 和 或 求 平 均值 ) ， 或 者 转换 成 另 一 个 集合 。 这 个 
Reducer 最 终 会 产生 一 个 键 - 值 对 。 再 次 说 明 一 下 ， 输 入 和 和 输出 的 键 和 值 
可 能 是 不 同 的 。 需 要 说 明 的 是 ， 如 果 job 不 需要 reduce 过 程 的 话 ， 那 么 也 
是 可 以 无 reduce 过 程 的 。 

















Hadoop 提 供 了 一 套 基础 设施 来 处 理 大 多 数 困 难 的 工作 以 保证 任务 能 
够 执行 成 功 。 例 如 ，Hadoop 决 定 如 果 将 提交 的 job 分 解 成 多 个 独立 的 map 
和 reduce 任 务 (task) 来 执行 ， 它 就 会 对 这 些 task 进 行 调度 并 为 其 分 配合 
适 的 资源 ， 决 定 将 某 个 task 分 配 到 集群 中 哪个 位 置 ( 如 果 可 能 ， 通 常 是 
这 个 task 所 要 处 理 的 数据 所 在 的 位 置 ， 这 样 可 以 最 小 化 网 络 开 销 )。 它 
会 监控 每 一 个 task 以 确保 其 成 功 完 成 ， 并 重启 一 些 失 败 的 task。 


Hadoop 分 布 式 文 件 系统 〈 也 就 是 HDFS) ， 或 者 一 个 同类 的 分 布 式 
文件 系统 ， 管 理 着 集群 中 的 数据 。 每 个 数据 块 lock) 都 会 被 元 余 多 
份 (通常 默认 会 见 余 3 份 )， 这 样 可 以 保证 不 会 因 单 个 硬盘 或 服务 器 的 
损坏 导致 数据 丢失 。 同 时 ， 因 为 其 目标 是 优化 处 理 非 常 大 的 数据 集 ， 所 
以 HDFS 以 及 类 似 的 文件 系统 所 使 用 的 数据 块 都 非 第 大， 通常 是 64MB 或 
是 这 个 值 的 若干 倍 。 这 么 大 的 数据 块 可 以 在 硬盘 上 连续 进行 存储 ， 这 样 
ge ere en ETP 
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为 了 更 清晰 地 介绍 MapReduce， 让 我 们 来 看 一 个 简单 的 例子 。Word 
Count 算 法 已 经 被 称 为 是 MapReduce 计 算 框架 中 的 “Hello World” $E 
了 。Word Count 会 返回 在 语料库 (单个 或 多 个 文件 ) 中 出 现 的 所 有 单词 
以 及 单词 出 现 的 次 数 。 输 出 内 容 会 显示 每 个 单词 和 它 的 频数 ， 每 行 显示 
一 条 。 按 照 通 党 的 习惯 ， 单词 (输出 的 键 〉 和 频数 (输出 的 值 》 通 常 使 
用 制 表 符 进行 分 割 。 


图 1-1 显示 了 在 MapReduce 计 算 框 架 中 Word Count 程 序 是 如 何 运作 
的 。 
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图 1-1 使 用 MapReduce 执 行 WordCount 算 法 
这 里 有 很 多 内 容 要 讲 ， 所 以 我 们 会 从 左 到 右 来 讲解 这 个 图 。 


图 1-1 中 左边 的 每 个 mput〈 输 入 ) 框 内 都 表示 一 个 单独 的 文件 。 例 
子 中 有 4 个 文件 ， 其 中 第 3 个 文件 是 个 空 文件 ， 为 了 便于 简单 描述 ， 其 他 
3 个 文件 都 仅仅 包含 有 少量 几 个 单词 。 


默认 情况 下 ， 每 个 文档 都 会 触及 一 个 Mapper 进 程 进行 处 理 。 而 在 实 
际 场景 下 ， 大 文件 可 能 会 被 划分 成 多 个 部 分 ， 而 每 个 部 分 都 会 侯 友 送 给 
一 个 Mapper 进 行 处 理 。 同 时 ， 也 有 将 多 个 小 文件 合并 成 一 个 部 分 供 茶 个 
Mapper 进 行 处 理 的 方法 。 不 过 ， 我 们 当前 不 必 深 完 这 些 细节 性 问题 。 


MapReduce 计 算 框架 中 的 输入 和 输出 的 基本 数据 结构 是 键 - 值 对 。 当 
Mapper 进 程 启动 后 ， 其 将 会 被 频繁 调用 来 处 理 文件 中 的 每 行文 本 。 每 次 
调用 中 ， 传 递 给 Mapper 的 键 是 文档 中 这 行 的 起 始 位 置 的 字符 偏 移 量 。 对 
应 的 值 是 这 行 对 应 的 文本 。 


在 WordCount 程 序 中 ， 没 有 使 用 字符 偏 移 量 ( 也 就 是 没有 使 用 
刍 〉。 值 (也 就 是 这 行文 本 ) 可 以 使 用 很 多 种 方式 进行 分 割 〈 例 如 ， 按 
照 空格 分 隔 是 最 简单 的 方式 ， 但 是 这 样 会 遗留 下 不 需要 的 标点 符号 ) ， 
































最 终 这 行文 本 会 被 分 解 成 多 个 单词 。 我 们 同时 假定 Mapper 会 将 每 个 单词 
转换 成 小 写 ， 因 此 对 于 “FUN” 和 “fun”* 会 被 认为 是 同一 个 单词 。 


最 后 ， 对 于 这 行文 本 中 的 每 个 单词 ，Mapper 都 会 输出 一 个 键 - 值 
对 ， 以 单词 作为 键 并 以 数字 1 作为 值 《这 里 1 表示 “出 现 1 次 ”") 。 需 要 注 
意 的 是 键 和 值 的 输出 数据 类 型 和 输入 数据 类 型 是 不 同 的 。 


Hadoop 神 奇 的 地 方 一 部 分 在 于 后 面 要 进行 的 Sort〈 排 序 ) 和 
Shuffle〈 重 新 分 发 ) 过 程 。Hadoop 会 按照 键 来 对 键 - 值 对 进行 排序 ， 然 
后 “重新 洗 牌 ”， 将 所 有 具有 相同 键 的 键 - 值 对 分 发 到 同一 个 Reducer 中 。 
这 里 有 多 种 方式 可 以 用 于 决定 哪个 Reducer 获 取 哪 个 范围 内 的 键 对 应 的 
数据 。 这 里 我 们 先 不 必 考 虑 这 些 问 题 。 但 是 出 于 说 明 性 目的 ， 我 们 假设 
了 一 个 特殊 的 按 字 母 数字 划分 的 过 程 ( 在 实际 执行 中 ， 会 有 所 


对 于 Mapper 而 言 如 果 只 是 简单 地 对 每 个 单词 输出 计数 1 这 样 的 处 理 
的 话 ， 那 么 会 在 Sort 和 Shuffle 过 程 中 产生 一 定 的 网 络 和 磁盘 1/O 浪 弗 (不 
过 ， 这 样 并 不 会 减少 Mapper 的 内 存 使 用 ) 。 有 一 个 优化 就 是 跟踪 每 个 单 
词 的 频数 ， 然 后 在 Mapper 结 束 后 只 输出 每 个 单词 在 这 个 Mapper 中 的 总 
频数 。 对 于 这 个 优化 有 好 几 种 实现 方式 ， 但 是 ， 最 简单 的 方式 应 该 是 逻 
辑 是 正确 的 ， 而 且 对 于 这 个 讨论 ， 理 由 是 充足 的 。 


每 个 Reducer 的 输入 同样 是 键 - 值 对 ， 但 是 这 次 ， 每 个 键 将 是 Mapper 
所 发 现 的 单词 中 的 某 一 个 单词 ， 而 这 个 键 对 应 的 值 将 是 所 有 Mapper 对 于 
这 个 单词 计算 出 的 频数 的 一 个 集合 。 需 要 注意 的 是 键 的 数据 类 型 和 值 的 
集合 中 元 素 的 数据 类 型 和 Mapper 的 输出 是 一 致 的 。 也 就 是 说 ， 键 的 类 型 
是 一 个 字符 串 ， 而 集合 中 的 元 素 的 数据 类 型 是 整 型 。 

为 了 完成 这 个 算法 ， 所 有 的 Reducer 需 要 做 的 事情 就 是 将 值 集合 中 
eee eee ee 最 终 的 频数 组 成 的 键 - 值 
XY 


Word Count 不 是 一 个 虚构 的 例子 。 这 个 程序 所 产生 的 数据 可 用 于 拼 
写 检 查 程 序 、 计 算 机 语言 检测 和 翻译 系统 ， 以 及 其 他 应 用 程序 。 




















1.2 Hadoop 生 态 系 统 中 的 Hive 


WordCount 算 法 ， 和 基于 Hadoop 实 现 的 大 多 数 算 法 一 样 ， 有 那么 点 
复杂 。 当 用 户 真 正 使 用 Hadoop 的 API 来 实现 这 种 算法 时 ， 甚 至 有 更 多 的 
底层 细节 需要 用 户 上 自己 来 控制 。 这 是 一 个 只 适用 于 有 经 验 的 Java 开 发 人 
员 的 工作 ， 因 此 也 就 将 Hadoop 湾 在 地 放 在 了 一 个 非 程序 员 用 户 无 法 触及 
的 位 置 ， 即 使 这 些 用 户 了 解 他 们 想 使 用 的 算法 。 


事实 上 ， 许 多 这 些 底层 细节 实际 上 进行 的 是 从 一 个 任务 Gob) 到 
下 一 个 任务 Cob) 的 重复 性 工作 ， 例 如 ， 将 Mapper 和 Reducer 一 同 写 入 
某 些 数据 操作 构造 这 样 的 底层 的 繁重 的 工作 ， 通 过 过 滤 得 到 所 需 数据 的 
操作 ， 以 及 执行 类 似 SQL 中 数据 集 键 的 连接 (JOIN) 操 作 等 。 不 过 幸运 的 
是 ， 存 在 一 种 方式 ， 可 以 通过 使 用 “高 级 ”工具 自动 处 理 这 些 情况 来 重用 
这 些 通 用 的 处 理 过 程 。 


这 也 就 是 引入 Hive 的 原因 。Hive 不 仅 提 供 了 一 个 熟悉 SQL 的 用 户 所 
能 熟悉 的 编程 模型 ， 还 消除 了 大 量 的 通用 代码 ， 甚 至 是 那些 有 时 是 不 得 
不 使 用 Java 编 写 的 令 人 环 手 的 代码 。 
这 就 是 为 什么 Hive 对 于 Hadoop 是 如 此 重要 的 原因 ， 无 论 用 户 是 
ee Hive A) Wik 0K 46 Be AH 47> RAE JI EA DA Sc 
量 的 工作 。 


图 1-2 显 示 了 Hive 的 主要 “模块 ”以 及 Hive 是 如 何 与 Hadoop 交 互 工 作 
的 。 




















Te C) Ca G 


Hive 


CoC) mer) 


Driver 
(compiles, optimizes, executes) 


Metastore 


Master 


* Joblracker 


图 1-2 ”Hive 组 成 模块 


有 好 几 种 方式 可 以 与 Hive 进 行 交 互 。 本 书 中 ， 我 们 将 主要 关注 于 
CLI， 也 就 是 命令 行 界 面 。 对 于 那些 更 喜欢 图 形 用 户 界 面 的 用 户 ， 可 以 
使 用 现在 逐步 出 现 的 商业 和 开源 的 解决 方案 ， 例 如 Karmasphere 发 布 的 
一 个 商业 产品 Chttp://karmasphere.com) ，Cloudera 提 供 的 开源 的 Hue 项 
H Chttps://github.com/cloudera/hue) ， 以 及 Qubole 提 供 的 “Hive 即 服 





务 ” 方 式 Chttp://qubole.com) ， 等 。 


Hive 发 行 版 中 附带 的 模块 有 CLI， 一 个 称 为 Hive 网 页 界面 (HWI) 
的 简单 网 页 界面 ， 以 及 可 通过 JDBC、ODBC 和 一 个 Thrift 服 务 器 (参考 
第 16 章 ) 进行 编程 访问 的 几 个 模块 。 


所 有 的 命令 和 查询 都 会 进入 到 Driver( 驱动 模块 )， 通 过 该 模块 对 
输入 进行 解析 编译 ， 对 需求 的 计算 进行 优化 ， 然后 按照 指定 的 步 又 执行 
《通常 是 启动 多 个 MapReduce 任 务 (job) 来 执行 ) 。 当 需要 局 动 
MapReduce 任 务 n 时 ，Hive 本 身 是 不 会 生成 Java MapReduce 算 法 程 
序 的 。 相 反 ，Hive 通 过 一 个 表示 “job 执行 计划 ”的 XML 文件 驱动 执行 内 
置 的 、 原 生 的 Mapper 和 Reducer 模 块 。 换 句 话 说， 这些 通用 的 模块 函数 
类 似 于 微型 的 语言 翻译 程序 ， 而 这 个 驱动 计算 的 “语言 ?是 以 XML 形式 编 





Hive 通 过 和 JobTracker 通 信 来 初始 化 MapReduce 任 务 (job) ， 而 不 
必 部 署 在 JobTracker 所 在 的 管理 节点 上 执行 。 在 大 型 集群 中 ， 通常 会 有 
DLS 门 用 于 部 署 像 Hive 这 样 的 工具 。 在 po ee a 
节点 上 的 JobTracker 通 信 来 执行 任务 (job) 。 通 常 ， 要 处 理 的 数据 文件 
是 存储 在 HDFS 中 的 ， 而 HDFS 是 由 NameNode 进 行 管理 的 。 


Metastore (元 数据 存储 ) 是 一 个 独立 的 关系 型 数据 库 (通常 是 一 个 
MySQL 实 例 ) ，Hive 会 在 其 中 保存 表 模 式 和 其 他 系统 元 数据 。 在 我 们 
将 详细 进行 讨论 ， 


尽管 本 书 是 关于 Hive 的 ， 不 过 还 是 有 必要 提 及 其 他 的 一 些 高 级 工 
具 ， 这 样 用 户 可 以 根据 需求 进行 选择 。Hive 最 适合 于 数据 仓库 程序 ， 对 
于 数据 仓库 程序 不 需要 实时 响应 查询 ， 不 需要 记录 级 别 的 插入 、 更 新 和 
删除 。 当 然 ，Hive 也 非常 适合 于 有 一 定 SQL 知 识 的 用 户 。 不 过 ， 用 户 的 
东 些 工作 可 能 采用 其 他 的 工具 会 更 容易 进行 处 理 。 




















1.2.1 Pig 


Hive 的 人 准 代 工具 中 最 有 名 的 就 是 Pig 了 《请 参 
考 http:/pig.apache.org) 。Pig 是 由 Yahoo! 开 发 完成 的 ， 而 同时 期 
Fackbook 正 在 开发 Hive。Pig 现 在 同样 也 是 一 个 和 Hadoop 紧 密 联系 的 项 
级 Apache 项 目 。 





假设 用 户 的 输入 数据 具有 一 个 或 者 多 个 源 ， 而 用 户 需 要 进行 一 组 复 
杂 的 转换 来 生成 一 个 或 者 多 个 输出 数据 集 。 如 果 使 用 Hive， 用 户 可 能 会 
AKA A CEST BIA) 来 解决 这 个 问题 ， 但 是 在 菜 些 时 刻 
会 需要 重新 保存 临时 表 《〈 这 个 需要 用 户 目 己 进行 管理 ) 来 控制 复杂 度 。 


Pig 补 描述 成 一 种 数据 流 语言 ， 而 不 是 一 种 查询 语言 。 在 Pig 中 ， 用 
户 需 要 写 一 系列 的 声明 语句 来 定义 茶 些 关系 和 其 他 一 些 关 系 之 间 的 联 
系 ， 这 里 每 个 新 的 关系 都 会 执行 新 的 数据 转换 过 程 。Pig 会 查找 这 些 声 
明 ， 然 后 创建 一 系列 有 次 序 的 MapReduce 任 务 (job) ， 来 对 这 些 数据 进 
行 转换 ， 直 到 产生 符合 用 户 预 期 的 计算 方式 所 得 到 的 最 终结 果 。 


这 种 步 进 式 的 数据 “ 流 ” 可 以 比 一 组 复杂 的 查询 更 加 直观 。 也 因此 ， 
Pig 各 用 于 ETL 《数据 抽取 ， 数 据 转换 和 数据 装载 ) 过 程 的 一 部 分 ， 也 就 
是 将 外 部 数据 装载 到 Hadoop 集 群 中 ， 然 后 转换 成 所 期 望 的 数据 格式 。 


Pig 的 一 个 缺点 就 是 其 所 使 用 的 定制 语言 不 是 基于 SQL 的 。 这 是 可 
以 理解 的 ， 因 为 Pig 本 身 就 不 是 被 设计 为 一 种 查询 语言 的 ， 但 是 这 也 意 
味 着 不 适合 将 SQL 应 用 程序 移植 到 Pig 中 ， 而 经 验 让 富 的 SQL 用 户 可 能 需 
要 投入 更 高 的 学 习 成 本 来 学 习 Pig。 


然而 ， Hadoop 团 队 通常 会 将 Hive 和 Pig 结 合 使 用 ， 对 于 特定 的 工作 
选择 合适 的 工具 。 


Alan Gates (O’Reilly) 所 编著 的 《Pig 编 程 指 南 》 一 书 对 于 Pig 进 行 
了 全 面 的 介绍 。 




















1.2.2 HBase 


如 果 用 户 需 要 Hive 无 法 提供 的 数据 库 特 性 〈 如 行 级 别 的 更 新 ， 快 速 
的 碍 询 啊 应 时 间 ， 以 及 文 持 事务 ) 的 话 ， 那 么 该 怎么 办 了 呢 ? 


HBase 是 一 个 分 布 式 的 、 可 伸缩 的 数据 存储 ， 其 文 持 行 级 别 的 数据 
更 新 、 快 速 答 询 和 行 级 事务 〈 但 不 文 持 多 行事 务 ) 。 


HBase 的 设计 灵感 来 自 于 谷歌 (Google) 的 BigTable， 不 过 HBase 并 
没有 实现 BigTable 的 所 有 特性 。HBase 支 持 的 一 个 重要 特性 就 是 列 存 
储 ， 其 中 的 列 可 以 组 织 成 列 族 。 列 族 在 分 布 式 集群 中 物理 上 是 存储 在 一 
起 的 。 这 就 使 得 当 但 询 场 景 涉及 的 列 只 是 所 有 列 的 一 个 子 集 时 ， 读 写 速 





度 会 快 得 多 。 因 为 不 需要 读 取 所 有 的 行 然后 丢弃 大 部 分 的 列 ， 而 是 只 需 
读 取 需 要 的 列 。 


可 以 像 键 - 值 存储 一 样 来 使 用 HBase， 其 每 一 行 都 使 用 了 一 个 唯一 键 
来 提供 非常 快 的 速度 读 写 这 一 行 的 列 或 者 列 族 。HBase 还 会 对 每 个 列 保 
留 多 个 版 本 的 值 《 按 照 时 间 惟 进行 标记 ) ， 版 本 数量 是 可 以 配置 的 ， 
此 ， 如 果 需 要 ， 可 以 “时 光 倒 流 ?” 回 退 到 之 前 的 茶 个 版 本 的 值 。 


最 后 ，HBase 和 Hadoop 之 间 是 什么 关系 ? HBase 使 用 HDFS 〈 或 其 他 
某 种 分 布 式 文件 系统 ) 来 持久 化 存储 数据 。 为 了 可 以 提供 行 级 别 的 数据 
更 新 和 快速 得 询 ，HBase 也 使 用 了 内 存 绥 存 技术 对 数据 和 本 地 文件 进行 
日 志 。 持 入 化 文件 将 定期 地 使 用 附加 日 志 更 新 进行 更 
新 等 操作 。 


HBase 没 有 提供 类 似 于 SQL 的 查询 语言 ， 但 是 Hive 现 在 已 经 可 以 和 
HBase 结 合 使 用 了 。 在 第 17.3 节 “HBase” 中 我 们 将 讨论 这 个 结合 。 


关于 HBase 的 更 多 信息 ， 请 参考 HBase 的 官方 网 站 ， 以 及 参阅 
LarsGeorge 所 著 的 《HBase 权 威 指南 》 一 书 。 























1.2.3 ”Cascading、Crunch 及 其 他 





Apache Hadoop 生 态 系 统 之 外 还 有 几 个 “高 级 ”语言 ， 它 们 也 在 
Hadoop 之 上 提供 了 不 错 的 抽象 来 减少 对 于 特定 任务 (job〉 的 底层 编码 
工作 。 为 了 叙述 的 完整 性 ， 下 面 我 们 列举 其 中 的 一 些 来 进行 介绍 。 所 有 
这 些 都 是 JVM (Java 虚 拟 机 〉 库 ， 可 用 于 像 Java、Clojure、Scala、 
JRuby、Groovy 和 Jython， 而 不 是 像 Hive 和 Pig 一 样 使 用 自己 的 语言 工 
H. 

AEA KES Pete BA AeA Mio CELE T HAREN | AS 
SQL 的 非 程 序 员 用 户 。 不 过 ， 对 于 开发 工程 师 来 次 ， 这 些 工 具 提供 了 图 
灵 完 全 的 编程 语言 的 完全 控制 。Hive 和 Pig 都 是 图 灵 完 全 性 的 〈 译 者 
TE: 图 灵 完 全 性 通常 是 指 上 共有 无 限 存储 能 力 的 通用 物理 机 器 或 编程 语 
言 ) 。 当 我 们 需要 Hive 本 身 没 有 提供 的 额外 功能 时 ， 我 们 需要 学 习 如 何 
用 Java 编 码 来 扩展 Hive 功 能 ( 见 表 1-1)。 


表 1-1 其 他 可 选 的 Hadoop 之 上 的 高 级 语言 库 
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名 称 URL 

















提供 数据 处 理 抽象 的 Java API. AAA 


Casading | http://cascading.org 
例如 Scala 


很 多 支持 Casading 的 特定 领域 语言 
(DSL) ， 采 用 的 是 其 他 的 编程 语言 ， 























s Groovy, JRuby#llJython 


Casading 的 一 个 Clojure DSL， 其 提供 了 


https://github.com/nathanmarz/ 源 于 Datal 


cascaLog 产生 的 附属 功能 


https://github.com/cloudera/crunch API 




















og 人 处理 和 查询 抽象 过 程 灵 感 而 








提供 了 可 定义 数据 流 管道 的 Java 和 Scala 


因为 Hadoop 是 面 癌 批 处 理 系统 的 ， 所 以 存在 更 适合 事件 流 处 理 的 使 
用 不 同 的 分 布 式 计算 模式 的 工具 。 对 事件 流 进行 处 理 时 ， 需 要 近乎 “ 实 
时 ? 吧 应 。 这 里 我 们 列举 了 其 中 一 些 项 目 〈 见 表 1-2) 。 


表 1-2 没有 使 用 MapReduce 的 分 布 式 处 理工 具 




















一 个 基于 Scala API 的 分 布 式 数 据 集 的 分 布 式 计算 框 
. _ 架 。 其 可 以 使 用 HDFS 文 件 ， 而 且 其 对 于 
phen OG sg MapReduce 中 多 种 计算 可 以 提供 显著 的 性 能 改进 。 
dii 同时 还 有 一 个 将 Hive 指 向 Spark 的 项 目 ， 称 作 
Shark Chttp://shark.cs.berkeley.edu/ ) 








https://github.com/ 一 个 实时 事件 流 处 至 

















里 系统 








nathanmarz/storm 


http://incubator.apache.org 一 个 分 布 式 的 发 布 -订阅 消息 传递 系统 
/kafka/index.html 








最 后 ， 当 无 需 一 个 完整 的 集群 时 《例如 ， 








处 理 的 数据 集 很 小 ， 或 者 


对 于 执行 系 个 计算 的 时 间 要 求 并 不 苛刻 ) ， 还 有 很 多 可 选 的 工具 可 以 轻 


松 地 处 理 原型 算法 或 者 对 数据 子 集 进 行 探 索 。 表 1-3 列 举 了 一 些 相对 比 
较 热 门 的 工具 。 




















表 1-3 ”其 他 数据 处 理 语言 和 工具 





一 个 用 于 统计 分 析 和 数据 图 形 化 展示 的 开 
源 语言 ， 通 常 在 数据 与 统计 学 家 、 经 济 学 
http://r-project.org/ 家 等 人 群 中 很 受 欢迎 。R 不 是 一 个 分 布 式 
系统 ， 所 有 其 可 以 处 理 的 数据 大 小 是 有 限 
的 。 社 区 正 努 力 将 R 和 Hadoop 结 合 起 来 















































http://www.mathworks.com/ | 一 个 受 工程 师 和 科学 家 欢迎 的 商业 数据 分 
products/matlab/index.html | 析 和 数值 方法 计算 系统 








http://www.gnu.org/ Matlab 对 应 的 一 个 开源 版 
software/octave/ 


UA ee eg N 
' PMLA OT. AOE EE 
Mathematica | httpVwww'wolram'com/。 | 运算 系统 ， 这 是 个 可 以 受 科学 家 和 工程 师 
mathematica/ ue 
欢迎 的 工具 


http://scipy.org oe irs 的 、 使 用 Python 进行 









































1.3 Java 和 Hive: 词 频 统计 算法 
如 果 用 户 不 是 Java 工 程 师 ， 那 么 可 以 直接 跳 到 下 一 节 。 


如 果 用 户 是 名 Java 工 程 师 ， 那 么 可 能 震 要 阅读 本 节 ， 因 为 用 户 需 要 
为 其 所 在 组 织 的 Hive 用 户 提 供 技 术 文 持 。 你 可 能 会 质疑 如 何 使 用 Hive 解 
决 自己 的 工作 。 如 果 是 这 样 的 话 ， 那 么 可 以 先 看 看 下 面 这 个 实现 了 之 前 
我 们 所 讨论 的 Word Count 算 法 的 例子 ， 我 们 先 学 会 使 用 Java MapReduce 
API， 然 后 再 学 习 如 何 使 用 Hive。 


通常 都 会 使 用 Word Count 作 为 用 户 学 习 使 用 Java 编 写 MapReduce 程 
序 的 例子 ， 因 为 这 样 用户 可 以 关注 于 API。 因 此 ，Word Count 已 经 成 为 
Hadoop 世 界 中 的 “Hello World” 程 序 了 。 


Apache Hadoop 分 支 版 本 中 包含 有 下 面 的 这 个 Java 实 现 呈 。 如 果 读 
者 并 不 了 解 Java《〈 但 是 你 仍 在 读本 节 内 容 的 话 ) ， 也 不 必 担 心 ， 我 们 提 
供 这 个 代码 只 是 为 了 方便 用 户 进行 大 小 对 比 。 











package org.myorg; 


import java.io.IOException,; 
import java.util.*; 


import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.conf.*; 

import org.apache.hadoop.io.*; 

import org.apache.hadoop.mapreduce.*; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; 


public class WordCount { 


public static class Map extends Mapper<LongwWritable, Text, Text, IntWritable> { 
private final static IntWritable one = new IntWritable(1); 
private Text word = new Text(); 


public void map(LongWritable key, Text value, Context context) 
throws IOException, InterruptedException { 
String line = value.toString(); 
StringTokenizer tokenizer = new StringTokenizer(line); 
while (tokenizer.hasMoreTokens()) { 
word.set(tokenizer.nextToken()); 
context.write(word, one); 


public static class Reduce extends Reducer<Text, Intwritable, Text, IntWritable> { 
public void reduce(Text key, Iterable<IntWritable> values, Context context) 
throws IOException, InterruptedException { 
int sum = 0; 
for (IntWritable val : values) { 
sum += val.get(); 
} 


context.write(key, new IntWritable(sum)); 
} 


public static void main(String[] args) throws Exception { 
Configuration conf = new Configuration(); 


Job job = new Job(conf, "wordcount"); 


job.setOutputKeyClass(Text.class); 
job.setOutputValueClass(IntWritable.class); 


job.setMapperClass(Map.class); 
job.setReducerClass(Reduce.class) ; 


job.setInputFormatClass(TextInputFormat.class); 
job.setOutputFormatClass(TextOutputFormat.class); 


FileInputFormat.addInputPath(job, new Path(args[0])); 
FileOutputFormat.setOutputPath(job, new Path(args[1])); 


job.waitForCompletion(true); 





上 面 是 一 个 有 63 行 的 Java 人 代码。 我 们 不 会 详细 解释 其 中 的 APII9]。 
如 下 是 使 用 HiveQL 进 行 的 相同 的 运算 ， 这 时 只 有 8 行 代码 ， 而 且 不 需要 
进行 编译 然后 生成 一 个 人 JAR”(Java 压 缩 包 ) 文件 。 








CREATE TABLE docs (line STRING); 


LOAD DATA INPATH 'docs' OVERWRITE INTO TABLE docs; 
CREATE TABLE word*counts AS 


SELECT word, count(1) AS count FROM 

(SELECT explode(split(line, '\s')) AS word FROM docs) w 
GROUP BY word 
ORDER BY word; 





我 们 稍 后 会 解释 所 有 这 些 HiveQL 语 法 。 


在 上 面 两 个 例子 中 ， 都 是 使 用 尽 可 能 简单 的 方法 将 文件 中 的 内 容 分 
割 成 单词 ， 也 就 是 按照 空格 进行 划分 的 。 这 个 方法 不 能 很 好 地 处 理 标 
点 ， 同 时 也 不 能 识别 同一 个 单词 的 单数 和 复数 形式 ， 等 等 。 不 过 ， 这 里 
这 么 使 用 已 经 可 以 达到 我 们 的 目的 了 。Do 


借助 Java API 可 以 定制 和 调整 一 个 算法 实现 的 每 个 细 市 。 不 过 ， 大 
多 数 情况 下 ， 用 户 都 不 需要 这 个 级 别 的 控制 ， 而 且 当 用 户 需 要 控制 所 有 
那些 细节 时 也 会 相当 地 放 慢 用 户 的 开发 进度 。 


如 果 你 不 是 一 名 程序 员 ， 那 么 也 就 用 不 着 写 Java MapReduce 代 码 
了 。 不 过 ， 如 果 你 已 经 熟悉 SQL 了， 那么 学 习 Hive 将 会 相当 地 容易 ， 而 
且 很 多 程序 也 都 很 容易 快速 实现 。 











1.4 ”后续 事情 


我 们 描述 了 Hive 在 Hadoop 生 态 系统 中 所 扮演 的 重要 角色 。 现 在 我 们 
开始 ! 





[1] 不 过 ， 因 为 Hive 是 被 设计 用 来 处 理 的 大 数据 集 的 ， 这 个 局 动 所 消耗 的 
时 间 和 实际 数据 处 理 时 间 相 比 是 微乎其微 的 。 


[2] 请 访问 Apache HBase 的 官方 网 站 ，http://hbase.apache.org, 以 及 Lars 
George(O’Reilly) 所 著 的 《HBase 权 威 指 丙 》 一 书 。 


[3] 请 参考 Cassandra 的 官方 网 站 ，http://cassandra.apache.org/, 以 及 参考 
Edward Capriolo (Packt) 所 著 的 《High Performance Cassandra Cookbook) 


[4] 请 参考 DynamoDB 的 官方 网 站 ，http://aws.amazon.com/dynamodb/。 
[5] 参 考 链 接 https://cwiki.apache.org/Hive/。 


[6] 不 过 ， 非 常 有 必要 将 这 个 wiki 链 接 加 入 到 网 址 收藏 来 中 ， 因 为 wiki 中 
包含 了 一 些 我 们 没有 和 窗 盖 的 、 比 较 模 糊 的 信息 。 


[7] 对 于 不 是 开发 者 的 用 户 ， 这 里 需要 补充 说 明 的 是 “Hello World” 程 序 通 
常 是 学 习 一 门 新 的 语言 或 者 工具 集 的 第 一 个 程序 。 





[8]Apache Hadoop word count: http://wiki.apache.org/hadoop/WordCount. 
[9] 详 细 信 息 请 参考 Tom White 所 著 的 《Hadoop 权 威 指 南 》 一 书 。 
[10] 还 有 一 个 微小 的 差异 。Hive 查 询 硬 编码 指定 一 个 指向 数据 的 路 径 ， 


而 Java 代 码 把 这 个 路 径 作为 一 个 输入 参数 处 理 。 在 第 2 章 ， 我 们 将 学 习 
如 何在 Hive 脚 本 中 使 用 * 变 量 * 来 避免 这 种 硬 编码 。 


第 2 章 ”基础 操作 


让 我 们 来 在 个 人 工作 站 上 安装 Hadoop 和 Hive 吧 。 这 是 学 习 和 体验 
Hadoop 的 一 个 便捷 的 方式 。 之 后 我 们 将 讨论 如 何 配 置 Hive 以 了 解 如 何在 
Hadoop 集 群 上 使 用 Hive。 


如 果 用 户 已 经 在 使 用 亚马逊 网 络 服 务 CAWS) 了， 那么 建立 一 个 
供 学 习 Hive 的 最 快速 途径 是 在 亚马逊 弹性 MapReduce 系 统 (EMR) 中 提 
交 一 个 Hive 任 务 。 我 们 在 第 21 章 将 会 讨论 这 种 方式 。 


如 果 用 户 已 经 会 使 用 安装 有 Hive 的 Hadoop 集 群 的 话 ， 那 么 我 们 建议 
可 以 跳 过 本 章 的 第 一 部 分 而 直接 从 ”开始 看 。 





2.1 安 站 预先 配置 好 的 虚拟 机 


用 户 可 以 通过 多 种 方式 来 安装 Hadoop 和 Hive。 安 装 一 个 完整 的 
Hadoop 系 统 〈 包 含有 Hive)〉 的 一 个 最 容易 的 方式 就 是 下 载 一 个 预先 配置 
好 的 虚拟 机 CVM) ， 这 个 虚拟 机 可 以 在 VMWarel1 或 者 VirtualBoxl 站 中 
执行 。 对 于 VMWare， 可 以 使 用 Windows 或 Linux( 人 免费 的 ) 的 
VMWarePlayer， 也 可 以 使 用 Mac OS X〈 需 付费 但 并 不 贵 ) 的 VMWare 
Fusion。VirtualBox 在 这 些 平台 (包含 有 Solaris 平 台中 都 是 免费 的 。 


虚拟 机 使 用 Linux 作 为 操作 系统 ， 这 也 是 在 生产 情况 下 运行 Hadoop 
的 唯一 指定 操作 系统 中。 
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在 Windows 系 统 中 目前 使 用 Hadoop 的 唯一 方式 就 是 使 用 虚拟 
机 ， 即 使 安装 了 Cygwin 或 其 他 类 似 的 类 UNIX 软 件 。 


目前 提供 的 大 多 数 预 先 配 置 好 的 虚拟 机 (VM) 仪 是 为 YMWare 设 
计 的 ， 但 是 如 果 用 户 偏 好 使 用 VirtualBox， 那 么 也 是 可 以 在 网 站 上 找到 
如 何 将 某 个 特定 的 VM 导入 到 VirtualBox 的 指 丙 的 。 


用 户 可 以 从 表 2-1 多 提供 的 网 站 中 下 载 指定 的 预先 配置 好 的 虚拟 
机 。 根 据 这 些 网 站 上 的 指南 可 以 下 载 并 导入 到 VMWare 的 虚拟 机 。 








表 2-1 为 VMWare 提 供 的 预先 配置 好 的 Hadoop 虚 拟 机 
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下 一 步 ， 可 以 直接 从 第 2.3 节 “Hive 内 部 是 什么 ”开始 看 。 


2.2 ”安装 详细 步骤 


虽然 使 用 一 个 预先 配置 好 的 虚拟 机 可 能 是 使 用 Hive 的 一 个 便捷 方 
式 ， 但 是 目 己 安装 Hadoop 和 Hive 可 以 让 用 户 更 清楚 地 知道 这 些 工 具 是 如 
何 工作 的 ， 特 别 是 ， 如 果 用 户 是 一 个 开发 者 的 话 ， 这 个 很 重要 。 


下 面 所 提供 的 指南 描述 的 是 在 用 户 个 人 Linux 或 者 Mac OS X 工 作 站 
中 安装 Hadoop 和 Hive 所 必需 的 最 少 的 步骤 。 对 于 生产 环境 下 的 安装 过 
程 ， 请 查阅 所 使 用 的 Hadoop 分 文 推 荐 的 安装 流程 。 








2.2.1 +&Java 


Hive 依 赖 于 Hadoop， 而 Hadoop 依 赖 于 Java。 用 户 需 要 确认 使 用 的 操 
作 系 统 中 安装 有 v1.6.* 或 者 v1.7.* 版 本 的 JVM Java 虚拟 机 ) 。 尽 管用 
户 执行 Hive 只 需要 使 用 到 JRE (Java 运 行 时 环境 ) ， 但 是 本 书 中 还 是 演 
示 了 如 何 使 用 Java 编码 对 Hive 进 行 扩展 ， 因 此 用 户 还 需要 安装 完整 的 
JDK (Java 开 发 工具 集 〉 来 编译 这 些 例子 。 但 是 ， 如 果 用 户 不 是 开发 
a R 本 书 所 附带 的 源码 分 六 版 本 中 己 经 包含 有 编译 
WHIT I. 


安装 完成 后 ， 用 户 需 要 确认 Java 已 经 存在 于 环境 中 ， 而 且 已 经 设置 
好 了 JAVA_HOME 环 境 变量 。 














1. Linux i t} Java & 48 45 1R 


在 Linux 操 作 系 统 上 ， 下 面 的 指令 是 在 /etc/profile.d/ 目 录 下 创建 一 
个 bash 文 件 ， 其 为 所 有 的 用 户 定义 了 一 个 JAVA_HOME 环 境 变 量 ， 需 要 
root 访 问 权 限 才 能 够 修改 这 个 目录 下 的 环境 变量 设置 ， 而 且 修改 将 会 影 
啊 到 系统 中 所 有 有 用户。 我们 使 用 $ 作 为 bash shell 提 示 符 。) Oracle 
JVM 安 装 程序 通常 会 将 软件 安装 在 /usr/java/jdk-1.6.X〈《 对 于 v1.6 版 本 ) 
目录 下 ， 而 且 会 从 /usr/java/default 和 /usr/java/latest 路 径 建 并 软 链 接 到 安 
装 路 径 下 。 











$ /usr/java/latest/bin/java -version 

java version "1.6.0 _23" 

Java(TM) SE Runtime Environment (build 1.6.0 _23-b05) 

Java HotSpot(TM) 64-Bit Server VM (build 19.0-b09, mixed mode) 

$ sudo echo "export JAVA_HOME=/usr/java/latest" > /etc/profile.d/java.sh 


$ sudo echo "PATH=$PATH: $JAVA_HOME/bin" >> /etc/profile.d/java.sh 
$ . /etc/profile 

$ echo $JAVA_HOME 

/usr/java/latest 





we 3 Pr 
as 提示 


如 有 果 之 前 是 使 用 “特权 账号 ”来 执行 某 个 命令 ， 而 不 是 在 执行 命 
令 前 使 用 sudo 命 令 来 执行 的 话 《〈 也 就 是 需要 执行 的 命令 分 为 两 部 
分 : sudo 加 上 用 户 需 要 执行 的 命令 ) ， 那 么 只 需要 按照 提示 要 求 输 
入 密码 即 可 。 如 末 是 个 人 计算 机 的 话 ， 用 户 账号 通常 束 具 有 “sudo 
权限 ?。 如 有 果 没 有 这 个 权限 ， 可 以 联系 管理 员 执 行 那 些 命令 。 


不 过 ， 如 果 用 户 不 期 望 修 改 影响 到 系统 里 所 有 的 用 户 ， 一 个 替 
代 方 案 就 是 ， 将 PATH 和 JAVA_HOME 环 境 变量 的 定义 加 入 到 用 户 的 
$HOME/.bashrc 文 件 中 。 





export JAVA_HOME=/usr/java/latest 
export PATH=$ PATH: $ JAVA_HOME/bin 


2. Mac OS X 系 统 中 Java 安 装 步 又 


Mac OS X #274 /etc/profile.d 这 样 的 目录 ， 而 且 它 们 通常 是 单 用 
户 系 统 ， 因 此 最 好 将 环境 变量 的 定义 语句 放置 在 $HOME/.bashrc 文 件 
中 。Java 路 径 同 样 也 是 不 同 的 ， 而 且 可 以 位 于 多 个 不 同 的 位 置 届 。 这 里 
有 一 些 例子 。 用 户 需要 确认 自己 的 Mac 电 脑 中 Java 的 安装 路 径 ， 然 后 对 
和 
实例 : 


$ export JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/ 1.6/Home 


$ export PATH=$PATH: $JAVA_HOME/bin 





下 面 是 Mac OS XA Java 1.7 的 环境 配置 实例 。 


$ export JAVA_HOME=/Library/Java/JavaVirtualMachines/1.7.0.jdk/Contents/ Home 


$ export PATH=$PATH: $JAVA_HOME/bin 





OpenJDK 1.7 发 行 版 也 是 安装 在 /Library/Java/JavaVirtualMachines H 
录 下 的 。 


2.2.2 ”安装 Hadoop 


Hive 运 行 在 Hadoop 之 上 。Hadoop 是 一 个 非常 活跃 的 开源 项 目 ， 其 
县 有 很 多 的 发 行 版 和 分 文 。 同 时 ， 很 多 的 商业 软件 公司 现在 也 在 开发 他 
们 自己 的 Hadoop 分 文 ， 有 时 会 对 某 些 组 件 进行 个 性 化 的 增强 或 者 蔡 换 。 
这 种 形式 可 以 促进 创新 ， 但 是 同时 也 会 产生 潜在 的 混乱 和 兼容 性 问题 。 


保持 使 用 最 新 版 本 的 软件 可 以 让 用 户 使 用 最 新 的 增强 功能 并 且 新 版 
本 通常 会 修复 很 多 的 BUG。 随 后 ， 有 时 用 户 可 能 会 发 现 新 的 BUG 以 及 
兼容 性 问题 。 本 书 中 ， 我 们 将 介绍 如 何 安装 Apache Hadoop v0.20.2 发 行 
版 。 这 个 版 本 并 非 是 最 新 稳定 发 行 版 ， 但 是 这 个 版 本 是 性 能 和 兼容 性 都 
可 以 信赖 的 一 个 标准 版 。 


不 过 ， 用 户 应 该 能 够 双 无 问题 地 选择 一 个 不 同 版 本 、 分 文 或 者 发 行 
版 来 学 习 和 使 用 Hive， 例 如 Apache Hadoop v0.20.205 版 本 或 者 1.0.* 版 
本 ，Cloudera 的 CDH3 或 者 CDH4 版 本 ，MapR 的 M3 或 者 M5 版 本 ， 以 及 即 
将 面市 的 Hortonworks 分 支 版 本 。 注 意 Cloudera，MapR 以 及 未 来 的 
Hortonworks 分 支 版 都 包含 有 一 个 捆绑 的 Hive 发 行 版 。 


不 过 ， 我 们 不 建议 安装 新 的 阿尔 法 版 的 “下 一 代 的 ”Hadoop v2.0 版 本 
《也 就 是 所 谓 的 v0.23 版 ) ， 至 少 本 书 的 目标 不 是 这 个 版 本 。 虽 然 这 个 
发 行 版 将 给 Hadoop 生 态 圈 带 来 重大 的 增强 ， 但 是 对 于 我 们 来 说 太 新 了 。 


在 Linux 系 统 中 ， 可 以 通过 执行 如 下 命令 安装 Hadoop。 注 意 : 对 于 
wget 命 令 ， 因 为 这 行 太 长 ， 我 们 将 其 分 为 了 两 行 。 














# or use another directory of your choice. 


http: //www.us.apache.org/dist/hadoop/common/hadoop-@.20.2/hadoop-0.20.2.tar.gz 
$ tar -xzf hadoop-0.20.2.tar.gz 


$ sudo echo "export HADOOP_HOME=$PWD/hadoop-0.20.2" > /etc/profile.d/ hadoop.sh 
$ sudo echo "PATH=$PATH: $HADOOP_HOME/bin" >> /etc/profile.d/hadoop.sh 
$ . /etc/profile 





对 于 Mac OS X 系 统 ， 可 以 通过 执行 如 下 命令 来 安装 Hadoop。 注 
m: 对 于 curl 命 令 ， 因 为 这 行 太 长 ， 我 们 将 其 分 为 了 两 行 。 





$ cd ~ # or use another directory of your choice. 
$ curl -o \ 
http: //www.us.apache.org/dist/hadoop/common/hadoop-@.20.2/hadoop-0.20.2.tar.gz 
$ tar -xzf hadoop-0.20.2.tar.gz 
$ echo "export HADOOP_HOME=$PWD/hadoop-@.20.2" >> $HOME/.bashrc 


$ echo "PATH=$PATH: $HADOOP_HOME/bin" >> $HOME/.bashrc 
$ . $HOME/.bashrc 





在 下 文中 ， 我 们 将 假设 用 户 ， 像 上 面 的 命令 一 样 ， 已 经 将 
$HADOOP_HOME/bin 加 入 到 环境 变量 路 径 中 了 。 这 样 设 置 后 用 户 只 需 
要 输入 hadoop 命 令 即 可 ， 无 需 加 上 路 径 前 绥 。 


2.2.3 ”本 地 模式 、 伪 分 布 式 模式 和 分 布 式 模式 


在 继续 讲解 之 前 ， 我 们 先 曾 明 Hadoop 的 不 同 运行 模式 。 我 们 前 面 提 
到 默认 的 模式 是 本 地 模式 ， 这 种 模式 下 使 用 的 是 本 地 文件 系统 。 在 本 地 
模式 下 ， 当 执行 Hadoop job 时 (包含 有 大 多 数 的 Hive 查 询 ) ，Map task 
和 Reduce task 在 同一 个 进程 中 执行 。 


真实 的 集群 配置 的 都 是 分 布 式 模式 ， 其 中 所 有 没有 完整 URL 指 定 的 
路 径 默 认 都 是 分 布 式 文件 系统 (通常 是 HDFS) 中 的 路 径 ， 而 且 
由 JobTracker 服 务 来 管理 job， 不 同 的 task 在 不 同 的 进程 中 执行 。 


对 于 在 个 人 计算 机 上 工作 的 开发 者 来 说 ， 一 个 进退 两 难 的 实际 问题 
是 ， 本 地 模式 并 不 能 真实 地 反映 真实 集群 的 行为 状况 ， 这 个 是 测试 程序 
时 需要 记 住 的 事情 。 为 了 解决 这 个 需求 ， 一 台 物 理 机 可 以 配置 成 在 伪 分 
布 式 模式 下 执行 。 这 种 模式 下 执行 的 行为 和 在 分 布 式 模式 下 的 行为 是 一 
致 的 。 也 就 是 说 ， 引 用 的 文件 系统 默认 为 分 布 式 文 件 系 统 ， 而 且 
由 JobTracker 服 务 来 管理 job， 但 是 实际 上 只 有 一 台 物 理 机 。 因 此 ， 例 
如 ，HDFS 文 件 块 多 余数 这 时 限制 为 一 个 备份 。 换 句 话 说 ， 行 为 类 似 于 
ap A ae 
配置 项 。 


因为 Hive 中 大 多 数 工作 是 使 用 Hadoop 的 job， 所 有 Hive 的 行为 可 以 
反映 出 用 户 所 使 用 的 Hadoop 运 行 模 式 。 不 过 ， 即 使 在 分 布 式 模式 下 执 
行 ，Hive 还 是 可 以 在 提交 查询 前 判断 是 否 可 以 使 用 本 地 模式 来 执行 这 个 
查询 。 这 时 它 会 读 取 数据 文件 ， 然 后 自己 管理 MapReduce task， 最 终 提 
供 更 快 的 执行 方式 。 不 过 ， 对 于 Hadoop 来 说 ， 不 同 模式 之 间 的 差异 相对 
于 部 署 方式 更 多 地 在 于 执行 方式 上 。 


本 书 中 大 部 分 情况 下 ， 不 会 关心 用 户 使 用 的 是 哪 种 模式 。 我 们 将 假 
a a a 
影响 的 情况 。 
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当 处 理 小 数据 集 时 ， 使 用 本 地 模式 执行 可 以 使 Hive 执 行 得 更 快 
些 。 设 置 如 下 这 个 属性 sethive.exec.mode.local.auto=true; 时 ， 将 会 触 
发 Hive 更 主动 地 使 用 这 种 模式 ， 即 使 当前 用 户 是 在 分 布 式 模式 或 伪 
分 布 式 模式 下 执行 Hadoop 的 。 如 果 想 默认 使 用 这 个 配置 ， 可 以 将 这 
个 命令 加 到 $HOME/.hiverc 文 件 中 (参考 第 2.7.5".hiverc 文 件 ” 章 
PIi 





2.2.4 测试 Hadoop 


假设 用 户 使 用 的 是 本 地 模式 ， 我 们 通过 两 种 不 同方 式 来 看 看 本 地 文 
件 系 统 。 下 面 这 个 是 通过 Linux ls 命令 查看 Linux 系 统 “root” 目 录 下 的 目录 
= 


Ow.: 








$ 1s / 
bin cgroup etc lib lost+found mnt opt root selinux sys user var 
boot dev home 1ib64 media null proc sbin srv tmp usr 


Hadoop 本 身 提 供 了 一 个 dfs 工 具 ， 这 个 工具 可 以 提供 对 当前 默认 文 
件 系统 的 基本 文件 的 操作 ， 例 如 ls 命令 。 因 为 现在 我 们 使 用 的 是 本 地 模 
式 ， 所 以 当前 默认 的 文件 系统 是 本 地 文件 系统 [61。 


$ hadoop dfs -1s / 

Found 26 items 

drwxrwxrwx - root root 24576 2012-06-03 14:28 /tmp 
drwxr-xr-x - root root 4096 2012-01-25 22:43 /opt 


drwx------ - root root 16384 2010-12-30 14:56 /lost+found 
drwxr-xr-x - root root © 2012-05-11 16:44 /selinux 
dr-xr-x--- - root root 4096 2012-05-23 22:32 /root 








WR A PB ee a A Ges A ACLs Shadoop”, ABA HY Lia 
直接 指定 绝对 路 径 来 执行 这 个 命令 〈 例 如 ，$HOME/hadoop- 
0.20.2/bin/hadoop) ， 或 者 将 bin 目 录 加 载 到 PATH 环境 变量 中 ， 这 个 在 前 
面 第 2.2.2 节 “安装 Hadoop” 中 讨论 过 了 。 
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当 你 发 现 需要 频繁 地 使 用 hadoop dfs 命 令 时 ， 最 好 为 这 个 命令 
定义 一 个 别名 (例如 ，alias hdfs="hadoop dfs") 。 


Hadoop 提 供 了 MapReduce 计 算 框 架 。Hadoop 分 文中 都 会 包含 有 一 个 
Word Count 算 法 实现 ， 这 个 我 们 在 第 1 章 讨 论 过 了 。 现 在 ， 我 们 来 运行 
ed 














首先 我 们 要 创建 一 个 输入 目录 “要 位 于 用 户 当 前 工作 目录 内 ) 用 于 
存放 将 要 使 用 Hadoop 进 行 处 理 的 文件 : 


$ mkdir wc-in 
$ echo "bla bla" > wc-in/a.txt 





$ echo "bla wa wa " > wc-in/b.txt 


使 用 hadoop 命 令 指定 我 们 刚刚 创建 好 的 文件 输入 目录 来 执行 Word 





Count 程 序 。 需 要 注意 的 是 ， 最 好 每 次 指定 的 文件 输入 和 输出 路 人 径 痢 是 
文件 夹 ， 而 不 是 文件 。 这 是 因为 通常 输入 和 或) 输出 目录 中 都 有 很 多 
的 文件 ， 这 是 系统 并 行 性 的 结果 。 


如 果 用 户 是 在 本 地 安装 的 软件 上 以 本 地 模式 运行 这 些 命令 的 话 ， 那 
么 hadoop 命 令 将 会 在 同一 个 进程 内 加 装 MapReduce 组 件 。 如 果 用 户 是 在 
集群 中 运行 或 者 使 用 伪 分 布 式 模 式 在 单 台 机 器 上 执行 的 话 ， 那 么 hadoop 
命令 将 会 使 用 JobTracker 服 务 启动 一 个 或 者 多 个 不 同 的 进程 〈 也 因此 如 
下 命令 的 输出 也 将 是 有 些 差 异 的 ) 。 同 时 ， 如 果 用 户 使 用 了 和 例子 中 版 
同 的 Hadoop 的 话 ， 那 么 需要 根据 情况 修改 一 下 这 个 examples.jar 的 
Fo 














$ hadoop jar $HADOOP_HOME/hadoop-0.20.2-examples.jar wordcount wc-in wc-out 
12/06/03 15:40:26 INFO input.FileInputFormat: Total input paths to process : 2 


12/06/03 15:40:27 INFO mapred.JobClient: Running job: job_local_0001 


12/06/03 15:40:30 INFO mapred.JobClient: map 100% reduce 0% 
12/06/03 15:40:41 INFO mapred.JobClient: map 100% reduce 100% 
12/06/03 15:40:41 INFO mapred.JobClient: Job complete: job_local_0001 


a a Count 程 序 的 输出 结果 可 以 使 用 本 地 文件 系统 的 命令 进行 





$ ls wc-out/* 
part-r-00000 


$ cat wc-out/* 
bla 3 
wa 2 





同时 也 可 以 等 价 的 dfs 命 令 进行 得 看 〈 这 是 因为 ， 我 们 假定 是 以 本 
地 模式 执行 的 ) : 
$ hadoop dfs -cat wc-out/* 


bla 3 
wa 2 
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对 于 非常 大 的 文件 ， 当 你 只 想 碍 询 其 开始 或 者 结尾 部 分 信息 
时 ， 这 里 没有 提供 -moew，-head 或 者 -tail 子 命令 。 蔡 代 方 式 是 ， 将 - 
cat 命 令 的 输出 通过 管道 传递 给 shell 中 的 more、head 或 者 tail 命 令 ， 
例如 ，hadoop dfs -cat wc-out/* | more 。 


注意 了 我 们 已 经 安装 了 一 个 Hadoop 并 且 对 其 进行 测试 了 ， 下 面 我 们 
来 安装 Hive。 


2.2.5 “Hive 


安装 Hive 的 过 程 和 安装 Hadoop 的 过 程 非常 相似 。 我 们 需要 先 下 载 一 
个 Hive 软 件 压缩 包 ， 然 后 进行 解压 缩 。 通 常 这 个 压缩 包 内 不 会 包含 有 某 
个 版 本 的 Hadoop。 一 个 Hive 二 进 制 包 可 以 在 多 个 版 本 的 Hadoop 上 工 
> pt alla ea 升级 Hive 到 新 的 版 本 会 更 加 容 
0 低 风 险 。 


Hive 使 用 环境 变量 HADOOP_HOME 来 指定 Hadoop 的 所 有 相关 JAR 
和 配置 文件 。 因 此 ， 在 继续 进行 之 前 请 确认 下 是 否 设 置 好 了 这 个 环境 变 
量 ， 这 个 我 们 之 前 有 讨论 过 的 。 如 下 命令 在 Linux 和 Mac OS XX 系统 中 都 
可 以 执行 。 





$ cd ~ # or use another directory of your choice. 

$ curl -o http://archive.apache.org/dist/hive/hive-0.9.0/hive-0.9.0-bin. tar.gz 
$ tar -xzf hive-0.9.0.tar.gz 

$ sudo mkdir -p /user/hive/warehouse 


$ sudo chmod a+rwx /user/hive/warehouse 


正如 用 户 可 以 从 这 些 命令 推 新 到 的 ， 我 们 使 用 的 是 编写 本 书 时 最 新 
最 稳定 的 Hive 发 行 版 ， 也 就 是 v0.9.0 版 本 。 不 过 ， 本 书 中 大 多 数 的 资料 
也 都 是 可 以 在 Hive v0.7.* 和 Hive v0.8.* 版 本 上 执行 的 。 当 我 们 磁 到 这 些 
资源 的 时 候 ， 我 们 会 讲述 它们 之 间 有 何 差 异 。 








用 户 可 能 需要 将 hive 命 令 加 入 到 环境 变量 路 径 中 去 ， 正 如 前 面 我 们 
对 hadoop 进 行 的 处 理 一 样 。 我 们 将 采用 同样 的 方式 ， 首 先 定 义 一 个 
HIVE_HOME 变 量 ， 但 是 和 HADOOP_HOME 不 同 的 是 ， 这 个 变量 并 非 
ee 本 书 中 某 些 例子 中 我 们 是 假定 已 经 定义 了 这 个 变量 


对 应 Linux 系 统 ， 执 行 这 些 命 令 : 








$ sudo echo "export HIVE_HOME=$PWD/hive-0.9.0" > /etc/profile.d/hive.sh 
$ sudo echo "PATH=$PATH: $HIVE_HOME/bin >> /etc/profile.d/hive.sh 


$ . /etc/profile 





对 应 Mac OS X 系 统 ， 执 行 这 些 命 令 : 


$ echo "export HIVE_HOME=$PWD/hive-0.9.0" >> $HOME/.bashrc 
$ echo "PATH=$PATH: $HIVE_HOME/bin" >> $HOME/.bashrc 





$ . $HOME/.bashrc 


2.3 Hive 内 部 是 什么 


Hive 二 进 制 分 支 版 本 核心 包含 3 个 部 分 。 主 要 部 分 是 Java 代 码 本 
身 。 在 SHIVE_HOME/lib 目 录 下 可 以 发 现 有 众多 的 JAR (Java 压 缩 包 ) 
文件 ， 例 如 hive-exec*.jar 和 hive-metastore*.jar。 每 个 JAR 文 件 都 实现 了 
Hive 功 能 中 某 个 特定 的 部 分 ， 具 体 详情 我 们 现在 无 需 关 心 。 


$HIVE_HOME/bin 目 录 下 包含 可 以 执行 各 种 各 样 Hive 服 务 的 可 执行 
文件 ， 包 括 hive 命 令 行 界面 (也 就 是 CLI) 。CLI 是 我 们 使 用 Hive 的 最 常 
用 方式 。 除 非 有 特别 说 明 ， 否 则 我 们 都 使 用 hive〈 小 写 ， 固 定 宽度 的 字 
体 ) 来 代表 CLI。CLI 可 用 于 提供 交互 式 的 界面 供 输入 语句 或 者 可 以 供 
用 户 执行 含有 Hive 语 句 的 “脚本 >”， 这 个 我 们 后 面 会 有 介绍 。 


Hive 还 有 一 些 其 他 组 件 。Thrift 服 务 提供 了 可 远程 访问 其 他 进程 的 
功能 ， 也 提供 使 用 JDBC 和 ODBC 访 问 Hive 的 功能 。 这 些 都 是 基于 Thrift 
服务 实现 的 。 在 后 面 的 多 章 内 容 中 我 们 将 讲述 这 些 功能 。 


所 有 的 Hive 客 户 端 都 需要 一 个 metastoreservice 〈 元 数据 服务 ) ， 
Hive 使 用 这 个 服务 来 存储 表 模 式 信 息 和 其 他 元 数据 信息 。 通 党 情况 下 会 
使 用 一 个 关系 型 数据 库 中 的 表 来 存储 这 些 信 息 。 默 认 情 况 下 ，Hive 会 使 
用 内 置 的 Derby SQL 服务 器 ， 其 可 以 提供 有 限 的 、 单 进程 的 存储 服务 。 
例如 ， 当 使 用 Derby 时 ， 用 户 不 可 以 执行 2 个 并 发 的 Hive CLI 实 例 ， 然 
而 ， 如 果 是 在 个 人 计算 机 上 或 者 某 些 开发 任务 上 使 用 的 话 这 样 也 是 没 问 
题 的 。 对 于 集群 来 说 ， 需 要 使 用 MySQL 或 者 类 似 的 关系 型 数据 库 。 第 
2.5.3 节 “使 用 JDBC 连 接 元 数据 ”中 我 们 将 详细 讨论 。 


最 后 ，Hive 还 提供 了 一 个 简单 的 网 页 界面 ， 也 就 是 Hive 网 页 界面 
CHWI) ， 提 供 了 远程 访问 Hive 的 服务 。 


conf 目 录 下 存放 了 配置 Hive 的 配置 文件 。Hive 具 有 非常 多 的 配置 属 
性 ， 根 据 需 要 后 面 我 们 会 进行 介绍 。 这 些 属性 控制 的 功能 包括 元 数据 存 
储 《〈 如 数据 存放 在 哪里 ) 、 各 种 各 样 的 优化 和 “安全 控制 ”， 等 等 。 




















2.4 ”启动 Hive 


终于 我 们 可 以 从 Hive 命 令 行 界面 CCLI) 开始 执行 一 些 命令 了 ! 我 
们 会 简要 地 说 明 一 下 出 现 了 什么 情况 ， 而 在 后 面 才 会 进行 详尽 的 讨论 。 


在 后 面 的 会 话 中 ， 我 们 将 使 用 $HIVE_HOME/bin/hive 命 令 ， 这 是 个 
bash shell 脚 本 ， 用 于 启动 CLI。 下 面 脚本 中 出 现 的 $9HIVE_HOME 可 以 根 
据 需 要 蔡 换 为 用 户 的 Hive 安 装 目 录 路 径 。 如 果 用 户 已 经 将 
$HIVE_HOME/bin 加 入 到 环境 变量 PATH 中 了 ， 那 么 只 需要 输入 hive 就 
0 

和 以 前 一 样 ，$ 是 bash 提 示 符 。 在 Hive CLI 中 ， 字 符 串 hive> 是 Hive 
的 提示 符 ， 而 大 于 号 > 是 第 2 个 提示 符 。 这 里 有 个 样 例会 话 ， 为 清晰 表 
达 ， 我 们 在 每 个 命令 后 面 都 人 为 地 增加 了 一 个 空 行 : 








$ cd $ HIVE_HOME 
$ bin/hive 
Hive history file=/tmp/myname/hive_job_log_myname_201201271126 1992326118. txt 





hive> CREATE TABLE x (a INT); 
OK 
Time taken: 3.543 seconds 


hive> SELECT * FROM x; 
OK 
Time taken: 0.231 seconds 


hive> SELECT * 
> FROM x; 
OK 
Time taken: 0.072 seconds 


hive> DROP TABLE x; 
OK 
Time taken: 0.834 seconds 


hive> exit; 





CLI 所 打印 出 的 第 1 行 显示 的 是 CLI 将 关于 用 户 所 执行 的 命令 和 查询 
的 日 志 数 据 所 存放 在 的 本 地 文件 系统 中 的 位 置 。 如 果 一 个 命令 或 者 查询 
执行 成 功 了 ， 那 么 输出 中 的 第 1 行将 是 OK， 然 后 才 会 紧 跟 着 输 出 内 容 ， 
最 后 以 一 行 表示 命令 或 者 查询 执行 所 消耗 的 时 间 的 输出 信息 结尾 。 
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贯穿 本 书 ， 我 们 将 按照 SQL 惯例 使 用 大 写字 母 显 示 Hive 的 关键 
字 (例如 ，CREATE, TABLE, SELECT 和 FROM) ， 尽 管 在 Hive 中 
关键 字 是 大 小 写 无 关 的 ， 这 也 和 SQL 的 惯例 是 一 致 的 。 


在 后 面 ， 对 于 所 有 的 会 话 我 们 通常 都 会 在 命令 的 输出 后 面 加 上 
空 行 。 同 时 ， 在 启动 一 个 会 话 的 时 候 ， 我 们 也 将 省 略 掉 那 行 关 于 日 
志文 件 所 在 位 置 的 输出 。 对 于 单个 命令 或 者 查询 ， 除 非 在 特别 的 情 
况 下 《例如 当 我 们 期 望 强 调 某 个 命令 或 者 查询 执行 成 功 ， 但 是 其 又 
没有 其 他 输出 信息 时 ) ， 人 否则 我 们 也 将 省 略 掉 *“OK” 和 *“Time 
taken:...” 这 些 行 信息 。 


通过 上 面 一 系列 连续 的 提示 符 ， 我 们 创建 了 一 个 简单 的 表 ， 表 名 是 
X， 包 含有 一 个 名 为 a 的 INT 〈4 字 节 整 型 ) 类 型 字段 ， 然 后 对 这 个 表 碍 询 
了 2 次 ， 第 2 次 查询 是 为 了 显示 但 询 语句 和 命令 ， 可 以 多 行 输入 。 最 后 ， 
我 们 删除 了 这 个 表 。 


如 果 用 户 使 用 默认 的 Perby 数 据 库 作为 元 数据 存储 的 话 ， 那 么 这 时 
可 以 注意 到 在 用 户 当 前 工作 目录 下 新 出 现 了 一 个 名 为 metastore_db 的 目 
录 ， 这 个 目录 是 在 启动 Hive 会 话 时 由 Derby 创 建 的 。 如 果 用 户 使 用 的 是 
之 前 所 介绍 的 虚拟 机 〈VM) ， 由 于 其 配置 可 能 不 同 ， 就 会 使 得 其 行为 
也 可 能 是 不 同 的 ， 这 个 我 们 后 面 会 做 讨论 。 


在 用 户 所 在 的 任意 工作 目录 下 都 创建 一 个 名 为 metastore_db 的 子 目 
录 并 不 方便 ， 因 为 当 用 户 切 换 到 新 的 工作 目录 下 时 ，Derby 会 “忘记 ”在 
前 一 个 目录 下 的 元 数据 存储 信息 ! 在 下 一 节 中 ， 我 们 将 讨论 如 何 为 元 数 
据 存 储 数据 库 配 置 一 个 永久 的 路 径 ， 同 时 还 会 做 其 他 一 些 调整 。 





























2.5 配置 Hadoop 环 境 


下 面 我 们 稍微 深入 地 看 看 Hadoop 的 不 同 模式 并 讨论 和 Hive 相 关 的 更 
多 配置 问题 。 


如 果 用 户 正 在 一 个 已 经 存在 的 集群 中 使 用 Hadoop 或 者 是 使 用 一 个 虚 
拟 机 实例 的 话 ， 那 么 可 以 跳 过 本 节 。 如 果 你 是 一 个 开发 者 或 者 你 是 自己 
安装 Hadoop 和 Hive 的 ， 你 将 会 对 本 节 后 面 的 内 容 感 兴趣 。 不 过 ， 我 们 不 
会 提供 一 个 完整 的 讨论 。 参 考 附录 A“Hadoop: The Definitive Guide by 
Tom White 来 得 看 不 同 模式 下 的 详细 配置 。 


2.5.1 本 地 模式 配置 

回想 下 ， 在 本 地 模式 中 ， 所 有 提 及 的 文件 都 存储 在 本 地 文件 系统 而 
不 是 分 布 式 文件 系统 中 。 其 中 没有 服务 在 运行 。 相 反 地 ， 用 户 的 job 在 
同一 个 JVM 实 例 中 执行 所 有 的 任务 。 


下面 图 2-1 前 明了 在 本 地 模式 下 执行 Hadoop job 的 过 程 。 




















Word Count 程序 调用 过 程 


hadoop jar hadoop-examples.jar \ 
wordcount /home/edward/a \ 
/home/edward/out/ 


fs.default.name mapred.job.tracker | 
=local =local : 


| Joblracker 和 
TaskTracker 
位 于 同一 进程 内 






本 地 文件 系统 


图 2-1 本 地 模式 下 的 Hadoop 


如 果 用 户 计 划 经 常 使 用 本 地 模式 的 话 ， 那 么 非常 有 必要 为 Derby 
metastore_db 〈 这 里 Hive 存 储 了 用 户 的 表 等 元 数据 信息 ) 配置 一 个 标准 
的 位 置 。 


用 户 如 果 不 想 使 用 默认 的 路 径 ， 那 么 还 可 以 配置 一 个 不 同 的 目录 来 
存储 表 数 据 。 对 于 本 地 模式 ， 默 认 路 径 是 file:/userhive/warehouse， 对 
于 其 他 模式 ， 默 认 存 储 路 径 是 


hdfs://namenode_server/user/hive/warehouse. 











首先 ， 切 换 到 $HIVE_HOME/conf 目 录 下 。 好 奇 者 可 能 会 看 到 hive- 
default.xml.template 这 个 大 文件 。 这 个 文件 中 包含 了 Hive 提 供 的 配置 属 
以 及 默认 的 属性 值 。 这 些 属 性 中 的 绝 大 多 数 ， 用 户 可 以 直接 忽略 不 
。 用 户 所 作 的 配置 修改 只 需要 在 hive-site.xml 文 件 中 进行 就 可 以 了 。 
如 果 这 个 文件 不 存在 ， 那 么 用 户 需 要 自己 创建 一 个 。 


这 里 有 个 配置 文件 样 例 ， 其 为 本 地 模式 执行 配置 了 几 个 属性 〈 见 例 
2-1) 。 











例 2-1 本 地 模式 下 的 hive-site，xml 配 置 文件 。 





<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl" href="configuration.xs1"?> 
<configuration> 
<property> 
<name>hive.metastore.warehouse.dir</name> 
<value>/home/me/hive/warehouse</value> 
<description> 
Local or HDFS directory where Hive keeps table contents. 
</description> 
</property> 
<property> 
<name>hive.metastore. local</name> 
<value>true</value> 
<description> 
Use false if a production metastore server is used. 
</description> 
</property> 
<property> 
<name>javax.jdo.option.ConnectionURL</name> 
<value>jdbc: derby: ; databaseName=/home/me/hive/metastore_db;create=true</value> 


<description> 
The JDBC connection URL. 
</description> 
</property> 
</configuration> 











用 户 可 以 根据 需要 从 配置 文件 中 移 除 掉 某 些 不 需要 改变 的 属性 ， 也 
就 是 <property>...</property> 标 签 包含 的 内 容 。 


正如 <description> 标 签 内 所 表明 的 ， 属 性 
hive.metastore.warehouse.dir 告 诉 Hive 在 本 地 文件 系统 中 使 用 哪个 路 径 来 
存储 Hive 表 中 的 数据 。“〈 这 个 值 会 退 加 到 Hadoop 配 置 文件 中 所 配置 的 属 
性 fs.defaultname 的 值 ， 其 默认 为 fje:M。) 用 户 可 以 根据 需要 为 这 个 属 
性 指定 任意 的 目录 路 径 。 


属性 hive.metastore.local 的 默认 值 就 是 true， 因 此 在 例 2-1 中 我 们 其 实 
是 没 必要 将 这 个 属性 加 进去 的 。 放 在 例子 中 更 多 的 目的 是 提供 文档 信 

















居 。 这 个 属性 控制 着 是 否 连接 到 一 个 远程 metastore server 或 者 是 否 作为 
Hive Client JVM 的 构成 部 分 重新 打开 一 个 新 的 metastore server。 这 个 设 
置 通常 是 设置 成 true 的 ， 然 后 使 用 JDBC 直 接 和 一 个 关系 型 数据 库 通 信 。 
当 设 置 为 false 时 ，Hive 将 会 通过 一 个 metastore server 来 进行 通信 ， 这 个 
我 们 将 在 第 16.8 节 “metastore 方 法 ”中 进行 讨论 。 


属性 javax.jdo.option.ConnectionURL 的 值 对 默认 的 值 进 行 了 简单 的 
修改 。 这 个 属性 告诉 Hive 如 何 连接 metastore server。 默 认 情 况 下 ， 它 使 
用 当前 的 工作 目录 作为 属性 值 字 符 串 中 的 databaseName 部 分 。 如 例 2-1 
中 所 示 ， 我 们 使 用 databaseName=/home/me/hive/metastore_db 作 为 绝对 路 
径 ， 它 是 metastore_db 目 录 所 在 的 路 径 。 这 样 设置 可 以 解决 每 次 开局 一 
个 新 的 Hive 会 话 时 ，Hive 目 动 删 除 工 作 目 录 下 的 metastore_db 目 录 的 问 
题 。 现 在 ， 我 们 不 管 在 哪个 目录 下 工作 都 可 以 访问 到 所 有 的 元 数据 。 


2.5.2 分布 式 模 式 和 伪 分 布 式 模式 配置 

在 分 布 式 模式 下 ， 人 和 集群 中 会 启动 多 个 服务 。JobTracker 管 理 着 job， 
而 HDFS 则 由 NameNode 管 理 着 。 每 个 工作 市 点 上 都 有 job task 在 执行 ， 由 
每 个 节点 上 的 TaskTracker 服 务 管理 着 ， 而 且 每 个 节点 上 还 存放 有 分 布 式 
文件 系统 中 的 文件 数据 块 ， 由 每 个 节点 上 的 DataNode 服 务 管理 着 。 


图 2-2 展 示 了 Hadoop 和 集群 的 一 个 典型 的 分 布 式 模式 配置 。 




































TaskTracker 


SecondaryNameNode 
2nn.domain.pvt 


Word Count 程 序 调用 过 程 
hadoop jar hadoop-examples.jar \ 
wordcount /home/edward/a \ 
/home/edward/out/ 


分 布 式 Hadoop 


mapred.job.tracker | | fs.default.name 
=jt.domain.pvt =nn.dorain.pvt 


图 2-2 分 布 式 模式 下 的 Hadoop 
我 们 约定 对 于 集群 的 内 外 网 ， 使 用 *.domain.pvt 作 为 我 们 的 DNS 命 


名 规范 。 
伪 分 布 式 模式 也 几乎 是 相同 的 ， 事 实 上 它 就 是 一 个 单 节 点 的 集群 。 


我 们 假定 用 户 的 管理 员 已 经 配置 好 了 Hadoop， 包 括 分 布 式 文件 系统 
(例如 ，HDFS， 或 者 请 参考 附录 AHadoop: The DefinitiveGuide by Tom 
White ) 。 因 此 ， 我 们 将 关注 其 与 Hive 所 要 求 的 不 同 的 配置 过 程 。 


用 户 可 能 需要 配置 的 一 个 Hive 属 性 是 表 存 储 所 位 于 的 顶级 文件 目 
录 ， 其 由 属性 hive.metastore.warehouse.dir 指 定 ， 在 第 2.5.1 节 “本 地 模式 配 
置 ?中 也 有 进行 讨论 。 


Apache Hadoop 和 MapR 分 支 中 这 个 属性 的 默认 值 
是 /user/hive/warehouse， 当 Hadoop 配 置 的 是 分 布 式 模式 或 者 盆 分 布 式 模 











式 时 ， 这 个 路 径 被 认为 是 分 布 式 文件 系统 中 的 路 径 。 对 于 Amazon 弹 性 
MapReduce 系 统 (EMR) ， 当 使 用 Hivev0.M.N 版 本 时 ， 这 个 属性 的 默认 
值 是 /mnt/hive_0M_N/warehouse (例如 ，/mnt/hive_08_1/ warehouse) 。 


为 这 个 属性 指定 不 同 的 值 可 以 允许 每 个 用 户 定 义 其 自己 的 数据 仓库 
目录 ， 这 样 就 可 以 避免 影响 其 他 系统 用 户 。 因 上 此， 用户 可 能 需要 使 用 如 
下 语句 来 为 其 自己 指定 数据 仓库 目录 : 


如 果 每 次 启动 Hive CLI 或 者 在 每 个 Hive 脚 本 前 都 指定 这 行 语句 ， 那 
么 显得 过 于 见长 。 当 然 ， 也 更 容易 会 态 记 设置 这 个 属性 值 。 因 此 ， 最 好 


将 和 这 个 命令 类 似 的 所 有 命令 放置 在 $HOME/.hiverc 文 件 中 ， 每 一 次 启 
动 Hive 都 会 执行 这 个 文件 。 参 考 第 2.7.5 节 “hiverc 文 件 ” 获 得 更 详细 信 
A 




















由 此 处 开始 我 们 将 假定 值 是 /userhive/warehouse。 


2.5.3 ”使 用 JDBC 连 接 元 数据 


Hive 所 需要 的 组 件 中 只 有 一 个 外 部 组 件 是 Hadoop 没 有 的 ， 那 就 是 
metastore (元 数据 存储 组件 。 元 数据 存储 中 存储 了 如 表 的 模式 和 分 区 
言 恩 等 元 数据 信息 。 用 户 在 执行 如 create table x... 或 者 alter table y.… 等 命 
令 时 会 指定 这 些 信 息 。 因 为 多 用 户 和 系统 可 能 需要 并 发 访问 元 数据 存 

储 ， 所 以 默认 的 内 置 数 据 库 并 不 适用 于 生产 环境 。 
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如 果 用 户 使 用 的 是 单个 节点 上 的 伪 分 布 式 模式 ， 那 么 用 户 可 能 
会 友 现 ， 为 元 数据 存储 设置 一 个 完整 的 关系 型 数据 库 并 没 多 大 用 
处 ， 反 而 ， 用 户 可 能 希望 继续 使 用 默认 的 Derby 进 行 元 数据 存储 ， 
但 是 可 以 为 其 设置 一 个 中 央 位 置 来 储存 数据 ， 这 个 在 第 2.5.1 节 “本 
地 模式 配置 ”中 己 经 讨论 过 了 。 


任何 一 个 适用 JDBC 进 行 连接 的 数据 库 都 可 用 作 元 数据 存储 。 在 实 
践 中 ， 大 多 数 的 Hive 客 户 端 会 使 用 MySQL 。 我 们 也 将 讨论 如 何 使 用 





MySQL 来 进行 元 数据 存储 。 执 行 过 程 对 于 其 他 适用 于 JDBC 连 接 的 数据 
库 都 是 适用 的 。 
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像 表 的 模式 信息 、 分 区 信息 等 这 些 必须 的 元 数据 ， 其 信息 量 是 
很 小 的 ， 通 和 常 比 存储 在 Hive 中 的 数据 的 量 要 少 的 多 。 因 此 ， 用 户 其 
实 无 需 为 元 数据 存储 提供 一 个 强劲 的 专用 数据 库 服务 器 。 不 过 ， 因 
为 这 是 一 个 单 点 问题 (SPOF) ， 所 以 强烈 建议 用 户 使 用 对 于 其 他 
关系 型 数据 库 实 例 同样 适用 的 标准 技术 来 对 这 个 数据 库 进 行 元 余 存 
储 和 数据 备份 。 这 里 我 们 不 会 探讨 这 些 技 术 。 


对 于 MySQL 配 置 ， 我 们 需要 知道 指定 服务 运行 在 哪个 服务 右 和 端 
口 。 我 们 将 假定 是 在 db1.mydomain.pvt 服 务 器 的 3306 端 口上 ， 这 个 端口 
也 是 标准 的 MySQL 端 口 。 最 后 ， 我 们 假定 存储 数据 库 名 为 hive_ db 。 我 
们 在 例 2-2 中 定义 了 这 些 属性 。 














例 2-2 hive-site.xml 中 的 元 数据 存储 数据 库 配 置 。 








<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl" href="configuration.xs1"?> 
<configuration> 
<property> 
<name>javax.jdo.option.ConnectionURL</name> 
<value>jdbc:mysql://db1.mydomain.pvt/hive_db?createDatabaseI fNotExist=true</value> 
</property> 
<property> 
<name>javax.jdo.option.ConnectionDriverName</name> 
<value>com.mysql.jdbc.Driver</value> 
</property> 
<property> 
<name>javax.jdo.option.ConnectionUserName</name> 
<value>database_user</value> 
</property> 
<property> 
<name>javax.jdo.option.ConnectionPassword</name> 
<value>database_pass</value> 
</property> 
</configuration> 











用 户 可 能 已 经 注意 到 ConnectionURL 属 性 值 前 级 是 jdbc:mysgql。 


为 了 使 Hive 能 够 连接 上 MySQL， 我 们 需要 将 JDBC 驱 动 放置 在 类 路 
径 下 。MySQL JDBC 驱 动 (Jconnector) 可 以 从 如 下 网 址 下 


载 ，http:/www.mysql.com/downloads/connector/j/。 这 个 驱动 可 以 放置 在 
Hive 的 库 路 径 下 ， 也 就 是 SHIVE_HOME/lib 目 录 下 。 有 些 团队 会 将 所 有 
这 些 文 持 类 的 库 放 置 在 Hadoop 的 库 目录 下 。 


驱动 和 配置 设置 正确 后 ，Hive 就 会 将 元 数据 信息 存储 到 MySQL 
中 。 


2.6 Hive 命 令 


$HIVE_HOME/bin/hive 这 个 shell 命 令 ( 后 面 我 们 省 略称 为 hive〉 是 
通 回 包括 命令 行 界面 也 就 是 CLI 等 Hive 服 务 的 通道 。 


我 们 假定 用 户 已 经 将 $HIVE_HOME/bin 加 入 到 环境 变量 PATH 中 
了 ， 则 用 户 只 需要 在 shell 提 示 符 中 输入 hive， 就 可 以 使 用 户 的 shell 环 境 
(例如 bash 环 境 ) 找到 这 个 命令 。 
命令 选项 


如 果 用 户 执 行 下 面 的 命令 ， 那 么 可 以 查看 到 hive 命 令 的 一 个 简明 说 
明 的 选项 列表 。 下 面 是 Hive v0.8.* 和 Hive v0.9.* 系 列 版 本 的 输出 : 


$ bin/hive --help 
Usage ./hive <parameters> --service serviceName <service parameters> 
Service List: cli help hiveserver hwi jar lineage metastore rcfilecat 
Parameters parsed: 

--auxpath : Auxiliary jars 

--config : Hive configuration directory 


--service : Starts specific service/component. cli is default 
Parameters used: 

HADOOP_HOME : Hadoop install directory 

HIVE_OPT : Hive options 
For help on a particular service: 

./hive --service serviceName --help 
Debug help: ./hive --debug --help 





需要 注意 Service Dist 后 面 的 内 容 。 这 里 提供 了 几 个 服务 ， 包 括 我 们 
绝 大 多 数 时 间 将 要 使 用 的 CLI。 用 户 可 以 通过 --service name 服 务 名 称 来 
局 用 某 个 服务 ， 尽 管 其 中 有 几 个 服务 也 是 有 快捷 启动 方式 的 。 


表 2-2 中 描述 了 最 有 用 的 服务 。 


表 2-2 ”Hive 服务 








各， 执行 查询 等 。 如 果 没 有 指定 其 他 服务 ， 这 个 是 4 
的 服务 。 参 考 第 2.7 节 "命令 行 界面 ” 




















hiveserver | Hive | 监听 来 自 于 其 他 进程 的 Thrift 连 接 的 一 个 守护 进程 


Server 























是 一 个 可 以 执行 查询 语句 和 其 他 命令 的 简单 的 Web 界面 ， 这 样 
以 不 用 登录 到 集群 中 的 某 台 机 器 上 使 用 CLI 来 进行 查询 












































hadoop jar 命 令 的 一 个 扩展 ， 这样 可 以 执行 需要 Hive 环 境 的 应 用 











启动 一 个 扩展 的 Hive 元 数据 服务 ， 可 以 供 多 客户 端 使 用 (参考 
第 2.5.3 节 : “使 用 JDBC 连 接 元 数据 ”) 

iea 一 个 可 以 打印 出 RCFile 格 式 (参考 第 15.3.2 节 “RCFile”) 文件 内 
容 的 工具 


--auxpath 选 项 允许 用 户 指定 一 个 以 冒 写 分 割 的 “附属 的 *Java 包 
(JAR) ， 这 些 文件 中 包含 有 用 户 可 能 需要 的 自 定义 扩展 等 。 


--config 文件 目录 这 个 命令 允许 用 户 履 益 $HIVE_HOME/conf 中 默认 








的 属性 配置 而 指向 一 个 新 的 配置 文件 目录 。 


2.7 命令 行 界面 


命令 行 界面 ， 也 就 是 CLI， 是 和 Hive 交 互 的 最 常用 的 方式 。 使 用 
CLI， 用 户 可 以 创建 表 ， 检 查 模式 以 及 查询 表 ， 等 等 。 








2.7.1 ”CLI 选项 


下 面 这 个 命令 显示 了 CLI 所 提供 的 选项 列表 。 这 里 显示 的 是 Hive 
v0.8.* 和 Hive v0.9.* 版 本 的 输出 : 


$ hive --help --service cli 
usage: hive 
-d,--define <key=value> Variable substitution to apply to hive 
commands. e.g. -d A=B or --define A=B 
-e <quoted-query-string> SQL from command line 
-f <filename> SQL from files 
-H, --help Print help information 
-h <hostname> connecting to Hive Server on remote host 
--hiveconf <property=value> Use value for given property 
--hivevar <key=value> Variable substitution to apply to hive 
commands. e.g. --hivevar A=B 
-i <filename> Initialization SQL file 
-p <port> connecting to Hive Server on port number 
-S,--Silent Silent mode in interactive shell 
-v,--verbose Verbose mode (echo executed SQL to the 
console) 


这 个 命令 的 一 个 简化 版 表示 方式 是 hive -h。 然 而 从 技术 上 来 说 并 不 
文 持 这 个 选项 。 这 个 命令 会 输出 帮助 信息 ， 同 时 还 输出 一 条 提示 信息 提 
示 “ 选 项 h 缺 少 参 数 ”。 

对 于 Hive v0.7.* 版 本 ， 不 文 持 -4、--hivevar 和 -p 选 项 。 

下 面 我 们 来 更 详细 地 探讨 这 些 选项 。 
2.7.2 ”变量 和 属性 

--define key=value 实 际 上 和 --hivevar key=value 是 等 价 的 。 二 者 都 可 
以 让 用 户 在 命令 行 定义 用 户 自 定义 变量 以 便 在 Hive 脚 本 中 引用 ， 来 满足 
不 同情 况 的 执行 。 这 个 功能 只 有 Hive v0.8.0 版 本 和 之 后 的 版 本 才 支 持 。 

当 用 户 使 用 这 个 功能 时 ，Hive 会 将 这 些 键 - 值 对 放 到 hivevar 命 名 空 








司 ， 这 样 可 以 和 其 他 3 种 内 置 命名 空间 (也 就 是 hiveconf、system 和 
env) ， 进 行 区 分 。 











变量 或 者 属性 是 在 不 同 的 上 下 文中 使 用 的 术语 ， 但 是 在 大 多 数 
情况 下 它们 的 功能 是 相同 的 。 


表 2-3 描 述 了 命名 空间 选项 。 
表 2-3 Hive 中 变量 和 属性 命名 空间 


(Hive v0.80 以 及 之 后 版 本 ) AL ECAR 
































一 4 可 读 Shell 环 境 “〈 例 如 bash) 定义 的 环境 变量 


Hive 变 量 内 部 是 以 Java 字 符 串 的 方式 存储 的 。 用 户 可 以 在 查询 中 引 











Cra Hive 会 先 使 用 变量 值 蔡 换 掉 查 询 的 变量 引用 ， 然 后 才 会 将 查询 
颁 提 交 给 查询 处 理 右 。 








在 CLI 中 ， 可 以 使 用 SET 命令 显示 或 者 修改 变量 值 。 例 如 ， 下 面 这 
个 会 话 先 显示 一 个 变量 的 值 ， 然 后 再 显示 env 命 名 空间 中 定义 的 所 有 变 
ee 


电 ， 而 且 在 每 行 命 令 之 间 人 为 地 增加 了 一 个 空白 行 : 








$ hive 
hive>set env:HOME; 
env: HOME=/home/thisuser 


hive>set; 
， 非 常 多 的 输出 信息 ， 而 且 包 含有 下 面 这 些 变量 的 : 
hive.stats.retries.wait=3000 
env: TERM=xterm 
system: user .timezone=America/New_York 





























hive>set -v; 


， 更 多 的 输出 信息 ! ... 














如 果 不 加 -v 标 记 ，set 命 令 会 打印 出 命名 空间 hivevar， hiveconf， 
system 和 env 中 所 有 的 变量 。 使 用 -V 标 记 ， 则 还 会 打印 Hadoop 中 所 定义 
的 所 有 属性 ， 例 如 控制 HDFS 和 MapReduce 的 属性 


还 可 用 于 给 变量 赋 新 的 值 。 我 们 特别 看 下 hivevar 命 名 空间 以 
及 如 何 通过 命令 行 定义 一 个 变量 : 





$ hive --define foo=bar 
hive> set foo; 
foo=bar; 


hive> set hivevar: foo; 
hivevar: foo=bar; 


hive> set hivevar: foo=bar2; 


hive> set foo; 
foo=bar2 


hive> set hivevar: foo; 
hivevar : foo=bar2 





我 们 可 以 看 到 ， 前 缀 hivevar: 是 可 选 的 。--hivevar 标 记 和 --define 标 记 
是 相同 的 。 


在 CLI 中 查询 语句 中 的 变量 引用 会 先 被 葵 换 挥 然 后 才 会 提交 给 查询 
处 理 器 。 思 考 如 下 这 个 CLI 会 话 ( 在 v0.8.* 版 本 中 使 用 ): 








hive> create table tossi(i int, ${hivevar:foo} string); 


hive> describe toss1; 

i int 

bar2 string 

hive> create table toss2(i2 int, ${foo} string); 
hive> describe toss2; 

i2 int 

bar2 string 


hive> drop table toss1; 


hive> drop table toss2; 


我 们 来 看 看 --hiveconf 选 项 ，Hive v0.7.* 版 本 支持 这 个 功能 ， 其 用 于 
配置 Hive 行 为 的 所 有 属性 。 我 们 用 它 来 指定 Hive v0.8.0 版 本 中 增加 的 
hive.cli.print.current.db 属 性 。 开 启 这 个 属性 可 以 在 CLI 提 示 符 前 打印 出 当 
前 所 在 的 数据 库 名 (第 4.1 节 “Hive 中 的 数据 库 ” 中 有 关于 Hive 数 据 库 的 更 
多 信息 ) ， 默 认 的 数据 库 名 为 default。 这 个 属性 的 默认 值 是 false。 


$ hive --hiveconf hive.cli.print.current.db=true 
hive (default)> set hive.cli.print.current.db; 
hive.cli.print.current.db=true 


hive (default)> set hiveconf:hive.cli.print.current.db; 
hiveconf:hive.cli.print.current.db=true 


hive (default)> set hiveconf:hive.cli.print.current.db=false; 


hive> set hiveconf:hive.cli.print.current.db=true; 





hive (default)> ... 


我 们 甚至 可 以 增加 新 的 hiveconf 属 性 ， 这 个 功能 只 有 Hive v0.8.0 版 本 
前 的 版 本 才 支 持 : 


$ hive --hiveconf y=5 
hive> set y; 
y=5 


hive> CREATE TABLE whatsit(i int); 





hive> .. .装载 数据 到 表 whatsit 中 ... 


hive> SELECT * FROM whatsit WHERE i = ${hiveconf:y}; 





我 们 还 有 必要 了 解 一 下 system 命 名 空间 ， Java 系 统 属性 对 这 个 命名 
空间 内 容 具 有 可 读 可 写 权 利 ， 而 env 命 名 空间 ， 对 于 环境 变量 只 提供 可 
该 权限 : 











hive> set system:user.name; 
system: user .name=myusername 


hive> set system:user.name=yourusername; 


hive> set system:user.name; 
system: user .name=yourusername 


hive> set env:HOME; 
env: HOME=/home/yourusername 


hive> set env:HOME; 
env:* variables can not be set. 


和 hivevar 变 量 不 同 ， 用 户 必须 使 用 system: 或 者 env: 前 级 来 指定 系统 
属性 和 环境 变量 。 

env 命 名 空间 可 作为 同 Hive 传 递 变 量 的 一 个 可 选 的 方式 ， 特 别 是 对 
于 Hive v0.7.* 版 本 。 考 虑 如 下 这 个 例子 : 


$ YEAR=2012 hive -e "SELECT * FROM mytable WHERE year = ${env:YEAR}"; 





查询 处 理 嚣 会 在 WHERE 子 句 中 查看 到 实际 的 变量 值 2012。 


| 


ES us 

如 果 你 现在 使 用 的 是 Hive v0.7.* 版 本 ， 那 么 这 本 书 中 一 些 使 用 
参数 和 变量 的 例子 和 写 的 可 能 并 不 符合 。 如 果 有 这 种 情况 ， 那 么 将 
变量 蔡 换 成 具体 的 值 即 可 。 


w nA 
“给 ”提示 


Hive 中 所 有 的 内 置 属性 都 在 
$HIVE_HOME/conf/hivedefault.xml.template 中 列举 出 来 了 ， 这 是 
个 “ 样 例 ” 配 置 文件 。 配 置 文件 中 还 说 明了 这 些 属性 的 默认 值 。 


2.7.3 ”Hive 中 “一 次 使 用 ”命令 


用 户 可 能 有 时 期 望 执行 一 个 或 者 多 个 查询 (使 用 分 号 分 隔 ) ， 执 行 
结束 后 hive CLIY 即 退出 。Hive 提 供 了 这 样 的 功能 ， 因 为 CLI 可 以 接受 -e 
命令 这 种 形式 。 如 果 表 mytable 具 有 一 个 字符 串 字 段 和 一 个 整 型 字段 ， 
我 们 可 以 看 到 如 下 输出 : 





$ hive -e "SELECT * FROM mytable LIMIT 3"; 
OK 
name1 10 


name2 20 

name3 30 

Time taken: 4.955 Seconds 
$ 


Ie ESF ov. st SY AY 58 AR ST RG ET BR AE BSC HY 
DU-SHA FE ESL, ROPE Ay DAE aT h R AOK” #ll“Time 
taken” 等 行 ， 以 及 其 他 一 些 无 关 紧 要 的 输出 信息 ， 如 下 面 这 个 例子 : 


$ hive -S -e "Select * FROM mytable LIMIT 3" > /tmp/myquery 
$ cat /tmp/myquery 


name1 10 
name2 20 
name3 30 


需要 注意 的 是 ，Hive 会 将 输出 写 到 标准 输出 中 。 上 面 例子 中 的 shell 
命令 将 输出 重 定 同 到 本 地 文件 系统 中 ， 而 不 是 HDFS 中 。 


最 后 ， 当 用 户 不 能 完整 记 清楚 茶 个 属性 名 时 ， 可 以 使 用 下 面 这 个 非 
常 有 用 的 技巧 来 模糊 获取 这 个 属性 名 而 无 需 深 动 set 命 令 的 输出 结果 进行 
查找 。 假 设 用 户 没 记 清 哪个 属性 指定 了 管理 表 的 “warehouse( 数 据 仓 
库 )” 的 路 径 ， 通 过 如 下 命令 可 以 查看 到 : 























$ hive -S -e "set" | grep warehouse 
hive.metastore.warehouse.dir=/user/hive/warehouse 


hive.warehouse.subdir.inherit.perms=false 





这 是 第 一 种 情况 。 
2.7.4 ”从 文件 中 执行 Hive 查 询 
Hive 中 可 以 使 用 -f 文件 名 方式 执行 指定 文件 中 的 一 个 或 者 多 个 碍 








询 语句 。 按 照 惯 例 ， 一 般 把 这 些 Hive 查 询 文件 保存 为 具有 .q 或 者 .hql 后 
级 名 的 文件 。 


$ hive -f /path/to/file/withqueries.hql 


在 Hive shell 中 用 户 可 以 使 用 SOURCE 命 令 来 执行 一 个 脚本 文件 。 下 
面 是 一 个 例子 : 
$ cat /path/to/file/withqueries.hql 


SELECT x.* FROM src x; 
$ hive 


hive> source /path/to/file/withqueries.hql; 


顺便 说 一 下 ， 如 果 查 询 中 的 表 名 和 这 个 例子 并 不 相关 ， 我 们 有 时 会 
sre ARR UR”) 作为 表 名 。 这 个 约定 来 源 于 Hive 源 码 中 的 单元 测 
试 中 的 写法 。 它 会 在 所 有 测试 开始 前 先 创建 一 个 名 为 src 的 表 。 


例如 ， 在 试用 茶 个 内 置 函 数 时 ， 通 常会 写 个 “得 询 ”语句 ， 然 后 往 这 
个 函数 中 传 入 参数 ， 如 下 面 这 个 例子 所 示 〈 这 个 例子 在 第 15.9 市 
《XPath 相关 的 函数 》 中 会 讲 到 ) : 


hive> SELECT xpath(\'<a><b id="foo">b1</b><b id="bar">b2</b></a>\',\'//@id\') 


> FROM src LIMIT 1; 
[foo", "bar ] 





我 们 现在 不 必 关 心 xpath 的 细节 问题 ， 但 是 需要 注意 ， 我 们 向 xpath 
中 传递 了 2 个 字符 串 类 型 的 参数 ， 而 且 使 用 了 FROM src LIMIT 1 来 指定 
必须 要 有 的 FROM 子 句 ， 并 限制 了 输出 行 数 。src 代 表 一 个 已 经 创建 好 的 
或 者 虚拟 地 创建 了 的 名 为 src 的 表 : 


同时 必须 至 少 有 一 行 的 数据 在 源 表 里 面 : 


$ echo "one row" > /tmp/myfile 





$ hive -e "LOAD DATA LOCAL INPATH '/tmp/myfile' INTO TABLE src; 


2.7.5 hiverc X4} 


我 们 最 后 将 要 讨论 的 CLI 选 项 是 -i 文件 名 。 这 个 选项 允许 用 户 指 定 
一 个 文件 ， 当 CLI 启 动 时 ， 在 提示 符 出 现 前 会 先 执行 这 个 文件 。Hive 会 
自动 在 HOME 目 录 下 寻找 名 为 .hiverc 的 文件 ， 而 且 会 自动 执行 这 个 文件 
中 的 命令 〈 如 果 文 件 中 有 的 话 ) o 


对 于 用 户 需 要 频繁 执行 的 命令 ， 使 用 这 个 文件 是 非常 方便 的 。 例 如 
设置 系统 属性 (参考 第 2.7.2 市 “变量 和 属性 *”) ， 或 者 增加 对 于 Hadoop 的 
ee ee 
(JAR 文 件 ) 。 


下 面 的 例子 显示 的 是 一 个 典型 的 $HOME/.hiverc 文 件 中 的 内 容 : 














ADD JAR /path/to/custom_hive_extensions. jar; 


set hive.cli.print.current.db=true; 
set hive.exec.mode.local.auto=true; 








上 面 例子 第 1 行 表示 同 Hadoop 分 布 式 内 存 中 增加 一 个 JAR 文 件 。 第 2 
行 表 示 修 改 CLI 提 示 符 前 显示 当前 所 在 的 工作 数据 库 ， 这 个 我 们 在 前 面 
第 2.7.2 节 “变量 和 属性 ”中 讲述 过 了 。 最 后 1 行 表示 “鼓励 *Hive 如 果 可 以 
使 用 本 地 模式 执行 《即使 当 Hadoop 是 以 分 布 式 模式 或 伪 分 布 式 模式 执行 
时 ) 的 话 就 在 本 地 执行 ， 这 样 可 以 加 快 小 数据 集 的 数据 查询 速度 。 








| 


D as 





一 个 比较 容易 犯 的 错误 就 是 忘记 在 每 行 的 结尾 加 有 逗号。 如 果 用 
户 犯 了 这 个 错误 ， 那 么 这 个 属性 将 包含 后 面 几 行 所 有 的 文字 ， 直 到 
发 现下 一 个 到 号 o 
2.7.6 ”使 用 Hive CLI 的 更 多 介绍 
CLI 支 持 其 他 一 些 有 用 的 功能 。 
自动 补 全 功能 
如 果 用 户 在 输入 的 过 程 中 敲 击 Tab 制 表 键 ， 那 么 CLI 会 自动 补 全 可 能 
的 关键 字 或 者 函数 名 。 例 如 ， 如 果 用 户 输入 SELE 然 后 按 Tab 键 ，CLI 将 
自动 补 全 这 个 词 为 SELECT。 


如 果 用 户 在 提示 符 后 面 直 接 敲 击 Tab 键 ， 那 么 用 户 会 看 到 如 下 回 


hive> 
Display all 407 possibilities? (y or n) 


—— 





[ 
SS un 
当 向 CLI 中 输入 语句 时 ， 如 果 某 些 行 是 以 Tab 键 开头 的 话 ， 就 会 
产生 二 个 常见 的 令 人 困惑 的 错误 。 用 户 这 时 会 看 到 一 个 < 是 否 显示 
所 有 可 能 的 情况 "的 提示 ， 而 且 输入 流 后 面 的 字符 会 被 认为 是 对 这 


个 提示 的 回复 ， 也 因此 会 导致 命令 执行 失败 。 
2.7.7 ”查看 操作 命令 历史 


用 户 可 以 使 用 上 下 第 头 来 滚动 查看 之 前 的 命令 。 事 实 上 ， 每 一 行 之 
前 的 输入 都 是 单独 显示 的 ，CLI 不 会 把 多 行 命令 和 查询 作为 一 个 单独 的 
历史 条 目 。Hive 会 将 最 近 的 100，00 行 命令 记录 到 文件 
$HOME/.hivehistory 中 。 


如 果 用 户 想 再 次 执行 之 前 执行 过 的 茶 条 命令 ， 只 需要 将 光标 滚动 到 
那 条 记录 然后 按 Enter 键 就 可 以 了 。 如 果 用 户 需 要 修改 这 行 记录 后 再 执 
行 ， 那 么 需要 使 用 左右 方 回 键 将 光标 移动 到 需要 修改 的 地 方 然 后 重新 编 
辑 修 改 束 可 以 了 。 修 改 后 用 户 直 接 融 击 Enter 键 就 可 以 提交 这 条 命令 而 无 
需 切 换 到 命令 尾 。 
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大 多 数 的 导航 按键 使 用 的 Contrl+ 字 母 的 命令 和 bash shell 中 是 相 
同 的 《例如 ，Control+A 代表 光标 移 到 到 行 首 ，Control+B 代表 光标 
移动 到 行 尾 〉。 然 而， 类 似 的 “元 操作 ”Option 或 者 Escape 键 就 不 起 
作用 了 【例如 ，Option+F 一 次 回 前 移动 一 个 单词 这 样 的 命令 ) 。 相 
似 地 ，Delete 删 除 键 会 删除 光标 左边 的 字符 ， 而 Forward Delete 回 格 
键 不 会 删除 挥 光标 当前 所 在 的 字符 。 


2.7.8 PÍT shell 


用 户 不 需要 退出 hive CLI 束 可 以 执行 简单 的 bash shell 命 令 。 只 要 在 
命令 前 加 上 ! 并 且 以 分 号 〈(;) 结尾 就 可 以 : 


hive> ! /bin/echo "what up dog"; 


"what up dog" 
hive> ! pwd; 
/home/me/hiveplay 


Hive CLI 中 不 能 使 用 需要 用 户 进 行 输入 的 交互 式 命令 ， 而 且 不 支持 


shell 的 “管道 ?功能 和 文件 名 的 自动 补 全 功能 。 例 如 ，! ls *.hql; 这 个 命令 
表示 的 是 查找 文件 名 为 *.hgql; 的 文件 ， 而 不 是 表示 显示 以 .hql 结 尾 的 所 有 











文件 。 
2.7.9 在 Hive 内 使 用 Hadoop 的 dfs 命 令 


用 户 可 以 在 Hive CLI 中 执行 Hadoop 的 dfs ... 命令 ， 只 需要 将 hadoop 
命令 中 的 关键 字 hadoop 去 挥 ， 然 后 以 分 号 结尾 就 可 以 了 : 
hive> dfs -ls / ; 


Found 3 items 
drwxr-xr-x - root supergroup © 2011-08-17 16:27 /etl 








drwxr-xr-x - edward supergroup © 2012-01-18 15:51 /flag 
drwxrwxr -x - hadoop supergroup © 2010-02-03 17:50 /users 





这 种 使 用 hadoop 命令 的 方式 实际 上 比 与 其 等 价 的 在 bash shell 中 执行 
的 hadoop dfs... 命令 要 更 高 效 。 因 为 后 者 每 次 都 会 启动 一 个 新 的 JVM 实 
例 ， 而 Hive 会 在 同一 个 进程 中 执行 这 些 命令 。 


用 户 可 以 通过 如 下 命令 查看 dfs 所 提供 的 所 有 功能 选项 列表 : 
用 户 还 可 以 登录 网 址 


http://hadoop.apache.org/common/docs/r0.20.205.0/file_system_ shell.html 
或 者 是 但 看 用 户 所 使 用 的 Hadoop 发 行 版 的 文档 来 获取 这 些 命令 的 说 明 。 








2.7.10 ”Hive 肢 本 中 如 何 进行 注释 


o v0.8.0 版 本 ， 用 户 可 以 使 用 以 -- 开 头 的 字符 串 来 表示 注 
释 ， 例 如 : 





-- Copyright (c) 2012 Megacorp, LLC. 
-- This is the best Hive Script evar!! 


SELECT * FROM massive_table; 





CLI 是 不 会 解析 这 些 注释 行 的 。 因 此 如 果 用 户 在 CLI 中 粘贴 这 
些 注释 语句 ， 那 么 将 会 有 错误 信息 。 他 们 只 能 放 在 脚本 中 通过 hive 





-fscript name 的 方式 执行 。 
2.7.11 显示 字段 名 称 
作为 最 后 一 个 例子 ， 我 们 把 学 到 的 很 多 东西 都 放 在 了 一 起 。 我 们 可 
以 让 CLI 打 印 出 字段 名 称 〈 这 个 功能 默认 是 关闭 的 ) 。 我 们 可 以 通过 设 
置 hiveconf 配 置 项 hive.cli.print.header 为 true 来 开局 这 个 功能 : 


hive> set hive.cli.print.header=true; 


hive> SELECT * FROM system_logs LIMIT 3; 
tstamp severity server message 


1335667117.337715 ERROR serveri Hard drive hd1 is 90% full! 
1335667117 .338012 WARN Server1 Slow response from server2. 
1335667117 .339234 WARN server2 Uh, Dude, I'm kinda busy right now... 


如 果 用 户 和 希望 总 是 看 到 字段 名 称 ， 那 么 只 需要 将 第 1 行 添加 到 
$HOME/.hiverc 文 件 中 即 可 。 








[1 |http://vmware.com. 


[2 ]https://www.virtualbox.org/. 


[3] 然 而 ， 一 些 厂 了 两 目前 开始 支持 Hadoop 在 其 他 操作 系统 中 使 用 。 
Hadoop 目 前 已 经 在 生产 中 应 用 于 各 种 各 样 的 UNIX 操 作 系 统 上 ， 其 在 
Mac OS X 中 作 开 发 用 时 效果 很 好 。 


[4] 这 些 是 写 这 本 书 时 所 提供 的 URL 链 接 。 

[5] 至 少 这 个 是 Dean 的 Mac 电 脑 中 当前 的 配置 情况 。 这 个 差异 可 能 实际 上 
反映 了 一 个 事实 ， 即 : Mac OS X 中 Java 的 管理 工作 自 Java 1.7 版 本 开始 
从 Apple 过 渡 到 了 Oracle。 


[6] NSAI, dfs -ls 命令 仅 提 供 “ 长 列表 ”格式 。 没 有 像 Linux 系 统 中 1s 命 
令 显 示 的 那 种 简短 格式 。 








PIE ”数据 类 型 和 文件 格式 


Hive 文 持 关 系 型 数据 库 中 的 大 多 数 基本 数据 类 型 ， 同 时 也 文 持 关系 
型 数据 库 中 很 少 出 现 的 3 种 集合 数据 类 型 ， 下 面 我 们 将 简短 地 介绍 一 下 
这 样 做 的 原因 。 


其 中 一 个 需要 考虑 的 因素 就 是 这 些 数据 类 型 是 如 何在 文本 文件 中 进 
行 表示 的 ， 同 时 还 要 考虑 文本 存储 中 为 了 解决 各 种 性 能 问题 以 及 其 他 问 
题 有 哪些 答 代 方案 。 和 大 多 数 的 数据 库 相 比 ，Hive 具 有 一 个 独特 的 功 
能 ， 那 就 是 其 对 于 数据 在 文件 中 的 编码 方式 具有 非常 大 的 灵活 性 。 大 多 
数 的 数据 库 对 数据 具有 完全 的 控制 ， 这 种 控制 既 包 括 对 数据 存储 到 磁盘 
的 过 程 的 控制 ， 也 包括 对 数据 生命 周期 的 控制 。Hive 将 这 些 方面 的 控制 
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3.1 基本 数据 类 型 
Hive 支 持 多 种 不 同 长 度 的 整 型 和 浮 点 型 数据 类 型 ， 支 持 布尔 类 型 ， 
也 支持 无 长 度 限 制 的 字符 串 类 型 。Hive v0.8.0 版 本 中 增加 了 时 间 惟 数据 
类 型 和 二 进 制 数组 数据 类 型 。 
表 3-1 列举 了 Hive 所 支持 的 基本 数据 类 型 。 
表 3-1 基本 数据 类 型 











布尔 类 型 ， 
true 或 者 false 





3.14159 
3.14159 


‘now is the time’, “for all good men” 














字符 序列 。 可 
以 指定 字符 
STRING 集 。 可 以 使 用 


单 引 号 或 者 双 


引号 





1327882394 (Unix 新 纪元 秒 )， 
整数 ， 浮 点 数 |1327882394.123456789 CUnix 新 纪元 秒 并 跟 
TIMESTAMP(v0.8.0+) 或 者 字符 串 随 有 纳 秒 数 ) 和 '2012-02-03 
六 12:34:56.123456789' (JDBC 所 兼容 的 











java.sql.Timestamp 时 间 格 式 ) 


BINARY(V0.8.0+) 字 节 数组 请 看 后 面 的 讨论 
































和 其 他 SQL 方言 一 样 ， 这 些 都 是 保留 字 。 


需要 注意 的 是 所 有 的 这 些 数据 类 型 都 是 对 Java 中 的 接口 的 实现 ， 
此 这 些 类 型 的 具体 行为 细节 和 Java 中 对 应 的 类 型 是 完全 一 致 的 。 例 如 ， 
STRING 类 型 实现 的 是 Java 中 的 String，FLOAT 实 现 的 是 Java 中 的 float， 
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EHESQLI AP, Tate ROR RAEN FRR” Cat 
FEARS FFT) 类型， 但 需要 注意 的 是 Hive 中 不 支持 这 种 数据 类 型 。 关 
系 型 数据 库 提供 这 个 功能 是 出 于 性 能 优化 的 考虑 。 因 为 定 长 的 记录 更 容 
易 进行 建立 索引 ， 数 据 扫 描 ， 等 等 。 在 Hive 所 处 的 “宽松 ”的 世界 里 ， 不 
一 定 拥有 数据 文件 但 必须 能 够 文 持 使 用 不 同 的 文件 格式 ，Hive 根 据 不 同 
字段 间 的 分 隅 符 来 对 其 进行 判断 。 同 时 ，Hadoop 和 Hive 强 调 优化 磁盘 的 
读 和 写 的 性 能 ， 而 限制 列 的 值 的 长 度 相 对 来 说 并 不 重要 。 


新 增 数据 类 型 TIMESTAMP 的 值 可 以 是 整数 ， 也 就 是 距离 Unix 新 纪 
元 时 间 (1970 年 1 月 1 日 ， 午 夜 12 点 ) Wee, 也 可 以 是 浮 点 数 ， 即 距离 
Unix 新 纪元 时 间 的 秒 数 ， 精 确 到 纳 秒 小数 点 后 保留 9 位 数 ) ; 还 可 以 
是 字符 串 ， 即 JDBC 所 约定 的 时 间 字 符 串 格式 ， 格 式 为 YYYY-MM-DD 
hh:mm:ss.fffffffff 。 








TIMESTAMPS 表 示 的 是 UTC 时 间 。Hive 本 刁 提 供 了 不 同时 区 间 互 
相 转 换 的 内 置 函 数 ， 也 就 是 to_utc_timestamp 函 数 和 from_utc_timestamp 
函数 (详情 请 查看 第 13 章 内 容 )。 


BINARY 数 据 类 型 和 很 多 关系 型 数据 库 中 的 VARBINARY 数 据 类 型 





是 类 似 的 ， 但 其 和 BLOB 数 据 类 型 并 不 相同 。 因 为 BINARY 的 列 是 存储 
在 记录 中 的 ， 而 BLOB 则 不 同 。BINARY 可 以 在 记录 中 包含 任意 字 节 ， 
这 样 可 以 防止 Hive 和 尝试 将 其 作为 数字 ， 字 符 串 等 进行 解析 。 


需要 注意 的 是 如 末 用 户 的 目标 是 省 略 掉 每 行 记录 的 尾部 的 话 ， 那 么 
是 无 需 使 用 BINARY 数 据 类 型 的 。 如 果 一 个 表 的 表 结 构 指 定 的 是 3 列 ， 
而 实际 数据 文件 每 行 记录 包含 有 5 个 字段 的 话 ， 那 么 在 Hive 中 最 后 2 列 数 
所 将 会 被 省 略 兵 。 


如 果 用 户 在 查询 中 将 一 个 float 类 型 的 列 和 一 个 double 类 型 的 列 作对 
比 或 者 将 一 种 整 型 类 型 的 值 和 另 一 种 整 型 类 型 的 值 做 对 比 ， 那 么 结果 将 
会 怎么 样 呢 ? Hive 会 隐 式 地 将 类 型 转换 为 两 个 整 型 类 型 中 值 较 大 的 那个 
类 型 ， 也 就 是 会 将 FLOAT 类 型 转换 为 DOUBLE 类 型 ， 而 且 如 有 必要 ， 
a ee eee en 
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WRAHA is BR — FF EB RAY PN BE? 这 种 情况 下 用 
户 可 以 显 式 地 将 一 种 数据 类 型 转换 为 其 他 一 种 数据 类 型 ， 后 面 会 有 这 样 
的 一 个 例子 ， 例 子 中 s 是 一 个 字符 串 类 型 列 ， 其 值 为 数值 : 


(这 里 需要 说 明 的 是 ，AS INT 是 关键 字 ， 因 此 使 用 小 写 也 是 可 以 
Hja d 


我 们 将 会 在 第 6.8 市 “类 型 转换 ”更 深入 地 讨论 数据 类 型 转换 。 



































3.2 ”集合 数据 类 型 


Hive 中 的 列 支 持 使 用 struct，map 和 array 集 合 数 据 类 型 。 需 要 注意 的 
是 表 3-2 中 语法 示例 实际 上 调用 的 是 内 置 函数 。 


表 3-2 集合 数据 类 型 


ry 








语法 示例 








和 C 语 言 中 的 struct 或 者 “对 象 ” 类 似 ， 都 可 以 通 

过 “点 ”符号 访问 元 素 内 容 。 例 如 ， 如 果 某 个 列 的 

数据 类 型 是 STRUCT{first STRING, last struct('John', 'Doe') 
STRING}, HAI 70 UE 字段 名 .first 

来 引用 


























MAP 是 一 组 键 - 值 对 元 组 集合 ， 使 用 数组 表示 法 
(例如 [key]) # 可 以 访问 元 素 。 例如 ， 如 果 某 个 Cee eee 
PR EN MAP., SiH RE-) (At EE first’- E ‘IOI’ ‘ast’. 
>John All ‘last’->‘Doe’, ASA A) LIFE 

[‘last’]3R Ma 1S ICR 



































数组 是 一 组 3 有 同类 型 和 名 称 的 变量 的 集合 。 

这 些 变量 称 为 数组 的 元 素 ， 每 个 数组 元 素 都 有 一 

个 编号 ， 编号 从 零 开 始 。 例如 ， 数 组 值 为 Array(‘John', 'Doe') 
[John:，“Doe']， 那 么 第 2 个 元 素 可 以 通过 数组 名 

[1] 进 行 引 用 



























































和 基本 数据 类 型 一 样 ， 这 些 类 型 的 名 称 同 样 是 保留 字 。 


大 多 数 的 关系 型 数据 库 并 不 支持 这 些 集 合 数据 类 型 ， 因 为 使 用 它们 
会 趋 问 于 破坏 标准 格式 。 例 如 ， 在 传统 数据 模型 中 ，structs 可 能 需要 由 
多 个 不 同 的 表 拼 装 而 成 ， 表 间 需 要 适当 地 使 用 外 键 来 进行 连接 。 


破坏 标准 格式 所 带 来 的 一 个 实际 问题 是 会 增 大 数据 见 余 的 风险 ， 进 
而 导致 消耗 不 必要 的 磁盘 空间 ， 还 有 可 能 造成 数据 不 一 致 ， 因 为 当 数据 
发 生 改 变 时 见 余 的 拷贝 数据 可 能 无 法 进行 相应 的 同步 。 














然而 ， 在 大 数据 系统 中 ， 不 如 循 标 准 格式 的 一 个 好 处 束 是 可 以 提供 
更 高 吞吐 量 的 数据 。 当 处 理 的 数据 的 数量 级 是 IT 或 者 P 时 ， 以 最 少 的 “ 头 
部 寻 址 ?来 从 磁盘 上 扫描 数据 是 非常 必要 的 。 按 数据 集 进 行 封装 的 话 可 
以 通过 减少 寻 址 次 数 来 提供 碍 询 的 速度 。 而 如 有 宁 根 据 外 键 关 系 关 联 的 话 
则 需要 进行 磁盘 间 的 寻 址 操作 ， 这 样 会 有 非常 高 的 性 能 消耗 。 
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Hive 中 并 没有 键 的 概念 。 但 是 ， 用 户 可 以 对 表 建 立 索 引 ， 这 些 
我 们 在 第 7 章 将 会 进行 介绍 。 


这 里 有 一 个 用 于 演示 如 何 使 用 这 些 数据 类 型 的 表 结 构 声 明 语 句 ， 这 
是 一 张 虚构 的 人 力 资 源 应 用 程序 中 的 员工 表 : 


CREATE TABLE employees ( 

STRING, 

salary FLOAT, 
subordinates ARRAY<STRING> 





了 
deductions MAP<STRING, FLOAT>, 
address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>); 





其 中 ，name 是 一 个 简单 的 字符 串 ;， 对 于 大 多 数 雇员 来 说 ， 
salary 《薪水 〉 使 用 float 浮 点 数 类 型 来 表示 就 已 经 足够 了 ; 
subordinates (FERT) 列表 是 一 个 字符 串 值 数组 。 在 该 数组 中 ， 我 们 
可 以 认为 name 是 “主键 >， 因 此 subordinates 中 的 每 一 个 元 素 都 将 会 引用 这 
张 表 中 的 男 一 条 记录 。 对 于 没有 下 属 的 雇员 ， 这 个 字段 对 应 的 值 就 是 一 
个 空 的 数组 。 在 传统 的 模型 中 ， 将 会 以 另外 一 种 方式 来 表示 这 种 关系 ， 
也 就 是 雇员 和 雇员 的 经 理 这 种 对 应 关系 。 这 里 我 们 并 非 强 调 我 们 的 模型 
对 于 Hive 来 说 是 最 好 的 ， 而 只 是 为 了 举例 展示 如 何 使 用 数组 。 


字段 deductions 是 一 个 由 键 - 值 对 构成 的 map， 其 记录 了 每 一 次 的 扣 
除 额 ， 这 些 钱 将 会 在 发 薪水 的 时 候 从 员工 工资 中 扣除 挥 。map 中 的 键 是 
扣除 金额 项 目的 名 称 〈 例 如 , “国家 税收 ”) ， 而 且 键 可 以 是 一 个 百分比 
值 ， 也 可 以 完全 就 是 一 个 数值 。 在 传统 数据 模型 中 ， 这 个 扣除 额 项 目的 
名 称 ( 这 里 也 就 是 map 的 键 〉 可 能 存在 于 不 同 的 表 中 。 这 些 表 在 存放 特 
定 扣 除 额 值 的 同时 ， 还 有 一 个 外 刍 指 问 对 应 的 雇员 记录 。 


最 后 ， 每 名 雇员 的 家 庭 住 址 使 用 struct 数 据 类 型 存储 ， 其 中 的 每 个 












































域 都 被 作 了 命名 ， 并 且 具 有 一 个 特定 的 类 型 。 


请 注意 后 面 是 如 何 使 用 Java 语 法 惯例 来 表示 集合 数据 类 型 的 。 例 
如 ，MAP<STRING，FLOAT> 表 示 map 中 的 每 个 键 都 是 STRING 数 据 类 
型 的 ， 而 每 个 值 都 是 FLOAT 数 据 类 型 的 。 对 于 ARRAY<STRING>， 其 
中 的 每 个 条 目 都 是 STRING 类 型 的 。STRUCT 可 以 混合 多 种 不 同 的 数据 
类 型 ， 但 是 STRUCT 中 一 旦 声明 好 结构 ， 那 么 其 位 置 就 不 可 以 再 改变 。 











3.3 ”文本 文件 数据 编码 


下 面 我 们 一 起 来 研究 文件 格式 ， 首 先 举 个 最 简单 的 例子 ， 也 就 是 文 
本 格式 文件 。 训 无 疑问 ， 用 户 应 该 很 熟悉 以 喜 号 或 者 制 表 符 分 割 的 文本 
文件 ， 也 就 是 所 谓 的 喜 号 分 隔 值 (CSV) 或 者 制 表 符 分 割 值 (TSV) 。 
只 要 用 户 需 要 ，Hive 是 支持 这 些 文件 格式 的 ， 在 后 面 将 会 介绍 其 具体 使 
用 方式 。 然 而 ， 这 两 种 文件 格式 有 一 个 共同 的 缺点 ， 那 就 是 用 户 需 要 对 
文本 文件 中 那些 不 需要 作为 分 隔 符 处 理 的 逗号 或 者 制 表 符 格 外 小 心 。 也 
因此 ，Hive 默 认 使 用 了 几 个 控制 字符 ， 这 些 字 符 很 少 出 现在 字段 值 中 。 
Hive 使 用 术语 field 来 表示 蔡 换 默认 分 隅 符 的 字符 ， 稍 后 我 们 将 可 以 看 
到 。 表 3-3 列 举 了 这 些 分 隔 符 。 


表 3-3 Hive 中 默认 的 记录 和 字段 分 割 符 


























对 于 文本 文件 来 次 ， 每 行 都 是 一 条 记录 ， 因 此 换行 符 可 以 分 割 记录 


ee ( 列 ) 。 在 CREATE TABLE 语 句 中 可 以 使 用 八进制 编 




































































用 于 MAP 中 键 和 值 之 间 的 分 隔 。 在 CREATE TABLE 语句 中 可 以 使 用 
八进制 编码 \003 表 示 





























AB 用 于 分 隔 ARRARY 或 者 STRUCT 中 的 元 素 ， 或 用 于 MAP 中 键 - 值 对 之 
间 的 分 隔 。 在 CREATE TABLE 语句 中 可 以 使 用 八进制 编码 \002 表 示 


前 面 章节 中 介绍 的 employees 表 的 记录 看 上 去 和 下 面 展示 的 这 个 例 
子 是 一 样 的 ， 其 中 使 用 到 了 AA 等 字符 来 作为 字段 分 隔 符 。 像 Emacs 这 样 
的 文本 编辑 器 将 会 以 这 种 形式 来 展示 这 些 分 隔 符 。 因 为 页 面 篇 幅 有 限 ， 
所 以 每 行 数据 并 非 显 示 在 同一 行 。 为 了 能 较 清 晰 地 展示 每 行 记录 ， 我 们 
在 行 与 行 间 额外 增加 了 一 个 空 行 : 














John Doe^A100000.0^AMary Smith^BTodd Jones^AFederal 


Taxes^C.2^BStateTaxes^C.05^ BInsurance^C.1^A1 Michigan 
Ave.^ABChicagoABILAB60600 


Mary Smith^A80000.0^ABill King\AFederal Taxes\C.2/4BState 
TaxesAC.05/4BInsurance’ C.14A100 Ontario St.ABChicago4BILAB60601 


Todd Jones^A70000.0^A Federal Taxes\C.15/BState 
TaxesAC.03/4BInsuranceAC.14A200 Chicago Ave.^BOak ParkABIL“B60700 


Bill King‘A60000.04A Federal Taxes‘C.154BState 
Taxes\C.034BInsuranceAC.14A300 Obscure Dr.ABObscuria“BIL“B60100 


j 其 可 读 性 并 不 好 ， 但 是 当然 了 ， 我 们 可 以 使 用 Hive 来 读 取 这 些 数 
ii o 
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JavaScript 数 据 交 换 格式 (ISON) 来 表示 这 条 记录 的 话 ， 那 么 如 果 增 加 
了 额 表 结构 中 的 字段 名 称 的 话 ， 样 式 将 会 和 如 下 所 示 的 一 样 : 








"name": "John Doe", 
"salary": 100000.0, 
"subordinates": ["Mary Smith", "Todd Jones"], 
"deductions": { 
"Federal Taxes": 
"State Taxes": 
"Insurance": 


d 
"address": { 
"street": "1 Michigan Ave.", 
"city": "Chicago", 
"state": "IL", 
"Zip": 60600 





这 里 ， 用 户 可 能 会 发 现在 JSON 中 map 类 型 和 struct 类 型 其 实 是 一 样 
的 。 


那么 ， 我 们 来 看 看 文本 文件 的 第 1 行 分 解 出 来 的 结 
(1) John Doe 对 应 name 字 段 ， 表 示 用 户 名 。 


@) 100000.0 对 应 salary 字 段 ， 表 示 薪 水 。 


©) Mary SmithABTodd Jones 对 应 subordinates 字 段 ， 表 示 下 属 
是 “Mary Smith” 和 “Todd Jones”。 


(4) Federal TaxesAC.2ABState TaxesAC.05ABInsuranceAC.1 对 应 
deductions 字 段 ， 表 示 扣 除 的 金额 ， 其 中 20% 用 于 上 缴 “ 国 税 >，59% 用 于 
上 缴 “ 州 税 >”， 还 有 109% 用 于 上 缴 “ 保 险 费 。” 


© 1 Michigan Ave.ABChicagoABILAB60600 对 应 address 字 段 ， 表 示 住 
址 是 “芝加哥 第 一 密 鞭 根 大 道 60600 写 。” 


用 户 可 以 不 使 用 这 些 默认 的 分 隅 符 ， 而 指定 使 用 其 他 分 隅 符 。 当 有 
其 他 应 用 程序 使 用 不 同 的 规则 写 数据 时 ， 这 是 非常 必要 的 。 下 面 这 个 表 
结构 声明 和 之 前 的 那个 表 是 一 样 的 ， 不 过 这 里 明确 地 指定 了 分 隔 符 : 











CREATE TABLE employees ( 

name STRING, 

salary FLOAT, 

subordinates ARRAY<STRING>, 

deductions MAP<STRING, FLOAT>, 

address STRUCT<street:STRING, city:STRING, state:STRING, zip: INT> 


) 

ROW FORMAT DELIMITED 

FIELDS TERMINATED BY '\001' 
COLLECTION ITEMS TERMINATED BY '\002' 
MAP KEYS TERMINATED BY '\003' 

LINES TERMINATED BY '\n' 

STORED AS TEXTFILE,; 





ROW FORMAT DELIMITED 这 组 关键 字 必 须要 写 在 其 他 子 句 〈 除 
了 STORED AS ... 子 句 ) 之 前 。 


字符 \001 是 ^A 的 八进制 数 。ROW FORMAT DELIMITED 
FIELDSTERMINATED BY \001' 这 个 子 句 表明 Hive 将 使 用 ^A 字 符 作 为 列 
分 割 符 
TET o 


同样 地 ， 字 符 \002 是 ^AB 的 八进制 数 。ROW FORMAT 
DELIMITEDCOLLECTION ITEMS TERMINATED BY "\002' 这 个 子 句 表 
明 Hive 将 使 用 AB 作 为 集合 元 素 间 的 分 隔 符 。 


最 后 ， 字 符 \003 是 AC 的 八进制 数 。ROW FORMAT DELIMITEDMAP 
KEYS TERMINATED BY \003' 这 个 子 句 表明 Hive 将 使 用 ^C 作 为 map 的 键 
和 值 之 间 的 分 隔 符 。 


子 句 LINES TERMINATED BY '...' 和 STORED AS ... 不 需要 ROW 
FORMAT DELIMITED 关 键 字 。 


事实 上 ，Hive 到 目前 为 止 对 于 LINESTERMINATED BY ... 仅 支持 字 
符 \m， 也 就 是 说 行 与 行 之 间 的 分 隔 符 只 能 为 \n?。 因 此 这 个 子 句 现在 使 
用 起 来 还 是 有 限制 的 。 


用 户 可 以 重新 指定 列 分 割 符 及 集合 元 素 间 分 隔 符 ， 而 map 中 键 - 值 间 分 隔 
符 仍 然 使 用 默认 的 文本 文件 格式 ， 因 此 子 名 STORED AS TEXTFILE 很 
少 被 使 用 到 。 本 书 中 大 多 数 情况 下 ， 我 们 使 用 的 都 是 缺 省 情况 下 默认 的 
TEXTFILE 文 件 格式 。 


当然 Hive 还 支持 其 他 一 些 文件 格式 ， 但 是 我 们 将 其 推迟 到 第 15 章 再 进行 
论述 。 与 其 相关 的 一 个 话题 是 文件 的 压缩 ， 这 个 我 们 将 在 第 11 章 进行 讨 
论 。 


因此 ， 虽 然 用 户 可 以 明确 指定 这 些 子 句 ， 但 是 在 大 多 数 情况 下 ， 大 多 子 


名 还 是 使 用 默认 的 分 割 符 的， 只 需要 明确 指定 那些 需要 替换 的 分 隔 符 即 
可 。 











这 些 规则 只 会 影响 到 Hive 在 读 取 文件 后 将 如 何 进行 划分 。 只 有 
a a 情况 下 ， 才 需要 用 户 手工 去 将 数据 按 正 确 的 格式 
写 入 文件 。 
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CREATE TABLE some_data ( 
first FLOAT, 
second FLOAT, 
third FLOAT 


) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ','; 





HPA EA? 〈 也 就 是 制 表 键 ) 作为 字段 分 隅 符 。 


w y 
4: | 
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AFRICA GEES VAR SK CAI Ss BBA) 和 TSV 格 
式 〈 值 是 制 表 键 分 隔 的 ) 文件 通常 使 用 的 场景 。CSV 和 TSV 格 式 的 
文件 中 文件 头 中 包含 有 列 名 ， 而 列 值 字符 串 也 有 可 能 是 包含 在 引号 
中 的 ， 而 且 其 列 值 中 也 有 可 能 包含 有 喜 号 或 者 制 表 键 。 第 15 章 将 介 
绍 如 果 更 优雅 地 处 理 这 类 文件 。 


这 种 强大 的 可 定制 功能 使 得 可 以 很 容易 地 使 用 Hive 来 处 理 那 些 由 其 
他 工具 和 各 种 各 样 的 ETL《〈 也 就 是 数据 抽取 、 数 据 转换 和 数据 装载 过 
程 ) 程序 产生 的 文件 。 














3.4 读 时 模式 


当 用 户 向 传统 数据 库 中 写 入 数据 的 时 候 ， 不 管 是 采用 装载 外 部 数据 
的 方式 ， 还 是 采用 将 一 个 查询 的 输出 结果 写 入 的 方式 ， 或 者 是 使 用 
UPDATE 语 句 ， 等 等 ， 数 据 库 对 于 存储 都 具有 完全 的 控制 力 。 数 据 库 就 
是 “守门 人 ”。 传 统 数据 库 是 写 时 模式 (schema on write) ， 即 数据 在 写 
入 数据 库 时 对 模式 进行 检查 。 


Hive 对 底层 存储 并 没有 这 样 的 控制 。 对 于 Hive 要 得 询 的 数据 ， 有 很 
多 种 方式 对 其 进行 创建 、 修 改 ， 甚 至 损坏 。 因 此 ，Hive 不 会 在 数据 加 载 
时 进行 验证 ， 而 古 在 查询 时 进行 ， 也 就 是 读 时 模式 (schema on 


read) 。 


那么 如 果 模 式 和 文件 内 容 并 不 匹配 将 会 怎么 样 呢 ? Hive 对 此 做 的 非 
常 好 ， 因 为 其 可 以 读 取 这 些 数据 。 如 果 每 行 记录 中 的 字段 个 数 少 于 对 应 
的 模式 中 定义 的 字段 个 数 的 话 ， 那 么 用 户 将 会 看 到 碍 询 结果 中 有 很 多 的 
nul 值 。 如 果 东 些 字段 是 数值 型 的 ， 但 是 Hive 在 读 取 时 发 现存 在 非 数值 
型 的 字符 串 值 的 话 ， 那 么 对 于 那些 字段 将 会 返回 null 值 。 除 此 之 外 的 其 
他 情况 下 ，Hive 痢 极力 尝试 尽 可 能 地 将 各 种 错误 恢复 过 来 。 

















第 4 章 HiveQL: 数据 定义 


HiveQL 是 Hive 碍 询 语言 。 和 普遍 使 用 的 所 有 SQL 方言 一 样 ， 它 不 完 
全 遵守 任 一 种 ANSI SQL 标准 的 修订 版 。HiveQL 可 能 和 MySQL 的 方言 最 
接近 ， 但 是 两 者 还 是 存在 显著 性 差异 的 。Hive 不 支持 行 级 插入 操作 、 更 
新 操作 和 删除 操作 。Hive 也 不 支持 事务 。Hive 增 加 了 在 Hadoop 背 景 下 的 
ee Ee EE ieee, 
部 程序 。 


当然 了 ， 大 部 分 的 HiveQL 还 是 很 钟 见 的 。 本 章 以 及 随后 的 几 章 将 
会 使 用 一 些 典 型 的 例子 来 讲解 HiveQL 的 那些 特性 。 在 茶 些 情况 下 ， 我 
们 会 从 整体 上 简要 地 谈 到 一 些 细节 ， 然 后 会 在 后 面 的 章节 里 再 去 比较 完 
整地 进行 讨论 。 


本 章 开 始 的 部 分 是 HiveQL 所 谓 的 数据 定义 语言 部 分 ， 其 用 于 创 
建 、 修 改 和 删除 数据 库 、 表 、 视 图 、 函 数 和 索引 。 本 章 将 会 涉及 到 数据 
库 和 表 ， 将 会 讨论 视图 有 关内 容 ， 将 讨论 索引 ， 会 讲述 到 函数 。 


随 着 介绍 的 继续 ， 我 们 也 将 会 讨论 SHOW 和 DESCRIBE 这 些 用 于 列 
举 和 描述 信息 的 命令 。 


随后 的 几 章 将 会 研 完 HiveQL 的 数据 操作 语言 部 分 ， 其 用 于 将 数据 
导入 到 Hive 表 中 ， 以 及 将 数据 抽取 到 文件 系统 中 。 这 些 章节 中 还 会 介绍 
如 何 通过 查询 、 分 组 、 过 小、 连接 等 操作 研究 和 操作 数据 。 














4.1 Hive 中 的 数据 库 


Hive 中 数据 库 的 概念 本 质 上 仅仅 是 表 的 一 个 目录 或 者 命名 空间 。 然 
而 ， 对 于 具有 很 多 组 和 用 户 的 大 集群 来 说 ， 这 是 非常 有 用 的 ， 因 为 这 样 
可 以 避免 表 命名 冲突 。 通 常会 使 用 数据 库 来 将 生产 表 组 织 成 逻辑 组 。 


如 果 用 户 没 有 显 式 指定 数据 库 ， 那 么 将 会 使 用 默认 的 数据 库 
default。 


下 面 这 个 例子 就 展示 了 如 何 创 建 一 个 数据 库 : 


如 果 数 据 库 financials 已 经 存在 的 话 ， 那 么 将 会 抛 出 一 个 错误 信息 。 
使 用 如 下 语句 可 以 避免 在 这 种 情况 下 抛 出 错误 信息 : 


虽然 通常 情况 下 用 户 还 是 期 望 在 同名 数据 库 已 经 存在 的 情况 下 能 够 
抛 出 警告 信息 的 ， 但 是 IF NOT EXISTS 这 个 子 句 对 于 那些 在 继续 执行 之 
前 需要 根据 需要 实时 创建 数据 库 的 情况 来 说 是 非常 有 用 的 。 


在 所 有 的 数据 库 相 关 的 命令 中 ， 都 可 以 使 用 SCHEMA 这 个 关键 字 来 
KBE STABLE. 


随时 可 以 通过 如 下 命令 方式 碍 看 Hive 中 所 包含 的 数据 库 : 


hive> SHOW DATABASES; 
default 
financials 




















hive> CREATE DATABASE human_resources; 


hive> SHOW DATABASES; 
default 

financials 
human_resources 
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数据 库 名 ， 正 则 表达 式 这 个 概念 ， 将 会 在 第 6.2.3 节 “介绍 。 下 面 这 个 例 


子 展 示 的 是 列举 出 所 有 以 字母 hb 开头 ， 以 其 他 字符 结尾 〈 即 .* 部 分 合 
义 ) 的 数据 库 名 : 


hive> SHOW DATABASES LIKE 'h.*'; 
human_resources 
hive> ... 


Hive 会 为 每 个 数据 库 创 建 一 个 目录 。 数 据 库 中 的 表 将 会 以 这 个 数据 
库 目 录 的 子 目录 形式 存储 。 有 一 个 例外 就 是 default 数 据 库 中 的 表 ， 因 为 
这 个 数据 库 本 里 没有 上 自己 的 目录 。 


数据 库 所 在 的 目录 位 于 属性 hive.metastore.warehouse.dir 所 指定 的 顶 
层 目录 之 后 ， 这 个 配置 项 我 们 已 经 在 前 面 的 第 2.5.1 节 “和 第 2.5.2 节 “” 中 
进行 了 介绍 。 假 设 用 户 使 用 的 是 这 个 配置 项 默认 的 配置 ， 也 就 
是 /user/hive/warehouse， 那 么 当 我 们 创建 数据 库 financials 时 ，Hive 将 会 
对 应 地 创建 一 个 目录 /user/hive/warehouse/financials.db。 这 里 请 注意 ， 数 
据 库 的 文件 目录 名 是 以 .db 结尾 的 。 


用 户 可 以 通过 如 下 的 命令 来 修改 这 个 默认 的 位 置 : 
hive> CREATE DATABASE financials 


用 户 也 可 以 为 这 个 数据 库 增加 一 个 描述 信息 ， 这 样 通 过 DESCRIBE 
DATABASE <database> 命令 就 可 以 查看 到 该 信息 。 














hive> CREATE DATABASE financials 
> COMMENT 'Holds all financial tables'; 


hive> DESCRIBE DATABASE financials; 
financials Holds all financial tables 
hdfs://master -server/user/hive/warehouse/financials.db 





从 上 面 的 例子 中 ， 我 们 可 以 注意 到 ，DESCRIEB DATABASE 4) 
也 会 显示 出 这 个 数据 库 所 在 的 文件 目录 位 置 路 径 。 在 这 个 例子 中 ，URI 
格式 是 hdfs。 如 果 安 装 的 是 MapR， 那 么 这 里 就 应 该 是 maprfs。 对 于 亚 配 
还 弹性 MapReduce (EMR) 集群 ， 这 里 应 该 是 hdfs， 但 是 用 户 可 以 设置 
hive.metastore.warehouse.dir 为 亚马逊 $3 特 定 的 格式 〈 例 如 ， 属 性 值 设 置 
为 s3n://bucketname...) 。 用 户 可 以 使 用 s3 作 为 模式 ， 但 是 如 果 使 用 新 版 
的 规则 s3n 会 更 好 。 





前 面 DESCRIBE DATABASE 语 句 的 输出 中 ， 我 们 使 用 了 master- 
server 来 代表 URI 权 限 ， 也 就 是 说 应 该 是 由 文件 系统 的 * 主 节点 ”( 例 如 ， 
HDFS 中 运行 NameNode 服 务 的 那 台 服务 器 ) 的 服务 器 名 加 上 一 个 可 选 的 
端口 号 构成 的 〈 例 如 ， 服 务 器 名 : 端口 号 这 样 的 格式 ) 。 如 果 用 户 执行 
的 是 伪 分 布 式 模式 ， 那 么 主 节 点 服务 嚣 名称 就 应 该 是 localhost。 对 于 本 
地 模式 ， 这 个 路 径 应 该 是 一 个 本 地 路 径 ， 例 如 


file:///user/hive/warehouse/financials.db. 


如 果 这 部 分 信息 省 略 了 ， 那 么 Hive 将 会 使 用 Hadoop 配 置 文件 中 的 配 
置 项 fs.default.name 作 为 master-server 所 对 应 的 服务 器 名 和 端口 号 ， 这 个 
配置 文件 可 以 在 $HADOOP_HOME/conf 这 个 目录 下 找到 。 








需要 明确 的 是 ，hdfs:///user/hive/warehouse/financials.db 和 hdfs://master- 
server/user/hive/warehouse/financials.db 是 等 价 的 ， 其 中 master-server 是 主 
节点 的 DNS 名 和 可 选 的 端口 号 。 


为 了 保持 完整 性 ， 当 用 户 指定 一 个 相对 路 径 《〈 例 如 ， 
some/relative/path) 时 ， 对 于 HDFS 和 Hive， 都 会 将 这 个 相对 路 径 放 到 分 
布 式 文件 系统 的 指定 根 目录 下 例如 ，hdfs:///user/<user-name>) 。 然 
而 ， 如 果 用 户 是 在 本 地 模式 下 执行 的 话 ， 那 么 当前 的 本 地 工作 目录 将 是 
some/relative/path 的 父 目 录 。 


为 了 脚本 的 可 移植 性 ， 通 常会 省 略 摊 那 个 服务 硕 和 端口 号 信息 ， 而 
只 有 在 涉及 到 另 一 个 分 布 式 文件 系统 实例 〈 包 括 S3 存 储 ) 的 时 候 才 会 指 


明 该 信息 。 


此 外 ， 用 户 还 可 以 为 数据 库 增加 一 些 和 其 相关 的 键 - 值 对 属性 信 
晨 ， 尺 管 目 前 仅 有 的 功能 就 是 提供 了 一 种 可 以 通过 DESCRIBE 
DATABASE EXTENDED <database> 语 句 显示 出 这 些 信息 的 方式 : 














hive> CREATE DATABASE financials 
> WITH DBPROPERTIES ('creator' = 'Mark Moneybags', 'date' = '2012-01-02'); 


hive> DESCRIBE DATABASE financials; 
financials hdfs://master -server/user/hive/warehouse/financials.db 


hive> DESCRIBE DATABASE EXTENDED financials; 
financials hdfs://master -server/user/hive/warehouse/financials.db 
{date=2012-01-02, creator=Mark Moneybags); 





USE 命 令 用 于 将 东 个 数据 库 设 置 为 用 户 当 前 的 工作 数据 库 ， 和 在 文 


件 系统 中 切换 工作 目录 是 一 个 概念 : 


现在 ， 使 用 像 SHOW TABLES 这 样 的 命令 就 会 显示 当前 这 个 数据 库 
下 所 有 的 表 。 

不 幸 的 是 ， 并 没有 一 个 命令 可 以 让 用 户 查 看 当前 所 在 的 是 哪个 数据 
E! 事 运 的 是 ， 在 Hive 中 是 可 以 重复 使 用 USE... 命 令 的 ， 这 是 因为 在 
Hive 中 并 没有 藤 套 数据 库 的 概念 。 


可 以 回想 下 ， 在 ”中 提 到 过 ， 可 以 通过 设置 一 个 属性 值 来 在 提示 符 
里 面 显 示 当 前 所 在 的 数据 库 (Hive v0.8.0 版 本 以 及 之 后 的 版 本 才 支 持 此 








hive> set hive.cli.print.current.db=true; 


hive (financials)> USE default; 


hive (default)> set hive.cli.print.current.db=false; 





hive> ... 
最 后 ， 用 户 可 以 删除 数据 库 : 


hive> DROP DATABASE IF EXISTS financials; 


IF EXISTS 子 句 是 可 选 的 ， 如 果 加 了 这 个 子 句 ， 就 可 以 避免 因数 据 
库 finanacials 不 存在 而 抛 出 警告 信息 。 


默认 情况 下 ，Hive 是 不 允许 用 户 删 除 一 个 包含 有 表 的 数据 库 的 。 用 
户 要 么 移 删 除数 据 库 中 的 表 ， 然 后 再 删除 数据 库 ; 要 么 在 删除 命令 的 最 
On 


如 果 使 用 的 是 RESTRICT 这 个 关键 字 而 不 是 CASCADE 这 个 关键 字 


的 话 ， 那 么 就 和 默认 情况 一 样 ， 也 就 是 ， 如 采 想 删除 数据 库 ， 那 么 必须 
先 要 删除 掉 该 数据 库 中 的 所 有 表 。 


如 果 肝 个 数据 库 补 删除 了 ， 那 么 其 对 应 的 目录 也 同时 会 被 删除 。 


4.2 ”修改 数据 库 


用 户 可 以 使 用 ALTER DATABASE 命 令 为 某 个 数据 库 的 
DBPROPERTIES 设 置 键 - 值 对 属性 值 ， 来 描述 这 个 数据 库 的 属性 信息 。 


数据 库 的 其 他 元 数据 信息 都 是 不 可 更 改 的 ， 包 括 数据 库 名 和 数据 库 所 在 
的 目录 位 置 : 


hive> ALTER DATABASE financials SET DBPROPERTIES ('edited-by' = 'Joe Dba'); 
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4.3 创建 表 


CREATE TABLE 语 句 遵 从 SQL 语 法 惯例 ， 但 是 Hive 的 这 个 语句 中 具 
有 显著 的 功能 扩展 ， 使 其 可 以 具有 更 广泛 的 灵活 性 。 例 如 ， 可 以 定义 表 
的 数据 文件 存储 在 什么 位 置 、 使 用 什么 样 的 存储 格式 ， 等 等 。 前 面 我 们 
在 ”中 已 经 讨论 了 很 多 种 存储 格式 ， 同 时 在 稍 后 的 我 们 将 会 再 次 探讨 一 
下 更 加 高 级 的 格式 。 本 节 中 ， 我 们 会 讨论 其 他 一 些 在 CREATE TABLE 
语句 中 可 以 使 用 到 的 选项 ， 下 面 这 个 表 结 构 适 用 于 前 面 我 们 在 ”中 所 声 
明 的 employees 表 : 


CREATE TABLE IF NOT EXISTS mydb.employees ( 
name STRING COMMENT ‘Employee name', 
salary FLOAT COMMENT ‘Employee salary', 
subordinates ARRAY<STRING> COMMENT 'Names of subordinates', 
deductions MAP<STRING, FLOAT> 
COMMENT 'Keys are deductions names, values are percentages', 


address STRUCT<street:STRING, city:STRING, state:STRING, zip: INT> 
COMMENT 'Home address') 
COMMENT 'Description of the table' 
TBLPROPERTIES ('creator'='me', 'created_at'='2012-01-02 10:00:00', ...) 
LOCATION '/user/hive/warehouse/mydb.db/employees'; 





首先 ， 我 们 可 以 注意 到 ， 如 果 用 户 当 前 所 处 的 数据 库 并 非 是 目标 数 
据 库 ， 那 么 用 户 是 可 以 在 表 名 前 增加 一 个 数据 库 名 来 进行 指定 的 ， 也 区 
是 例子 中 的 mydb。 


如 果 用 户 增加 上 可 选项 IF NOT EXITS ， 那 么 若 表 已 经 存在 了 ， 
Hive 就 会 忽略 掉 后 面 的 执行 语句 ， 而 且 不 会 有 任何 提示 。 在 那些 第 一 次 
执行 时 需要 创建 表 的 脚本 中 ， 这 么 写 是 非常 有 用 的 。 


然而 ， 这 个 语句 还 有 一 个 用 户 需 要 注意 的 问题 。 如 果 用 户 所 指定 的 
表 的 模式 和 已 经 存在 的 这 个 表 的 模式 不 同 的 话 ，Hive 不 会 为 此 做 出 提 
示 。 如 果 用 户 的 意图 是 使 这 个 表 上 共有 重新 指定 的 那个 新 的 模式 的 话 ， 那 
么 就 需要 先 删 除 这 个 表 ， 也 就 是 丢 径 之 前 的 数据 ， 然 后 再 重建 这 张 表 。 
用 户 可 以 考虑 使 用 一 个 或 多 个 ALTER TABLE 语 句 来 修改 已 经 存在 的 表 
的 结构 。 有 更 详细 的 信息 。 
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如 果 用 户 使 用 了 IF NOT EXISTS， 而 且 这 个 已 经 存在 的 表 和 
CREATE TABLE 语 句 后 指定 的 模式 是 不 同 的 。Hive 会 忽略 抒 这 个 
差异 。 


用 户 可 以 在 字段 类 型 后 为 每 个 字段 增加 一 个 注释 。 和 数据 库 一 样 ， 
用 户 也 可 以 为 这 个 表 本 身 添 加 一 个 注释 ， 还 可 以 自 定义 一 个 或 多 个 表 属 
性 。 大 多 数 情 况 下 ，TBLPROPERTIES 的 主要 作用 是 按键 - 值 对 的 格式 为 
表 增 加 额外 的 文档 说 明 。 但 是 ， 当 我 们 检查 Hive 和 像 DymamoDB (请 参 
考 第 17.5 节 “DymamoDB” 中 的 内 容 ) 这样 的 数据 库 间 的 集成 时 ， 我 们 可 
以 发 现 TBLPROPERTIES 还 可 用 作 表 示 关 于 数据 库 连 接 的 必要 的 元 数据 


Ho 





Hive 会 自动 增加 两 个 表 属 性 : 一 个 是 last_modified by， 其 保存 着 最 
后 修改 这 个 表 的 用 户 的 用 户 名 ; 男 一 个 是 last_modified_time， 其 保存 着 
最 后 一 次 修改 的 新 纪元 时 间 秒 。 
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Hive v0.10.0 版 本 中 有 一 个 功能 增强 计划 ， 也 就 是 增加 一 个 
SHOW TBLPROPERTIES table name 命令 ， 用 于 列举 出 某 个 表 的 
TBLPROPERTIES 属 性 信息 。 


最 后 ， 可 以 看 到 我 们 可 以 根据 情况 为 表 中 的 数据 指定 一 个 存储 路 径 
《和 元 数据 截然 不 同 的 是 ， 元 数据 总 是 会 保存 这 个 路 径 ) 。 在 这 个 例子 
中 ， 我 们 使 用 的 Hive 将 会 使 用 的 默认 的 路 
径 /user/hive/warehouse/mydb.db/employees。 其 中 ，/user/hive/warehouse 
是 默认 的 “数据 仓库 ?路 径 地 址 〈 这 个 之 前 有 讨论 过 ) ，mydb.db 是 数据 
库 目录 ，employees 是 表 目 录 。 


默认 情况 下 ，Hive 总 是 将 创建 的 表 的 目录 放置 在 这 个 表 所 属 的 数据 
库 目 录 之 后 。 不 过 ，default 数 据 库 是 个 例外 ， 其 在 /userhive/warehouse 
下 并 没有 对 应 一 个 数据 库 目 录 。 因 此 default 数 据 库 中 的 表 目 录 会 直接 位 
于 /userhive/warehouse 目 录 之 后 〈 除 了 用 户 明 确 指定 为 其 他 路 径 ) 。 
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为 了 避免 潜在 产生 混 消 的 可 能 性 ， 如 果 用 户 不 想 使 用 默认 的 表 
路 径 ， 那 么 最 好 是 使 用 外 部 表 。 和 查看 获得 更 详细 信息 。 

用 户 还 可 以 找 贝 一 张 已 经 存在 的 表 的 表 模 式 〈 而 无 需 捞 贝 数 据 ) : 
LIKE mydb.employees; 


这 个 版 本 还 可 以 接受 可 选 的 LOCATION 语 句 ， 但 是 注意 其 他 的 属性 ， 包 
括 模 式 ， 都 是 不 可 能 重新 定义 的 ， 这 些 信 息 直 接 从 原始 表 获 得 。 


SHOW TABLES 命 令 可 以 列举 出 所 有 的 表 。 如 果 不 增加 其 他 参数 ， 
那么 只 会 显示 当前 工作 数据 库 下 的 表 。 假 设 我 们 已 经 创建 了 一 些 其 他 
表 ，table1 和 table2， 而 且 我 们 的 工作 数据 库 是 mydb: 

















hive> USE mydb 


hive> SHOW TABLES; 


hive> USE default; 


hive> SHOW TABLES IN mydb; 





如 果 我 们 有 很 多 的 表 ， 那 么 我 们 可 以 使 用 正则 表达 式 来 过 小 出 所 需 
要 的 表 名 。 正 则 表达 式 这 个 概念 我 们 将 在 进行 讨论 。 


hive> USE mydb 


hive> SHOW TABLES 'empl.*'; 
employees 
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话 ， 最 好 事先 测试 下 备 选 的 正则 表达 式 是 否 真正 奏效 ! 


单 引 号 中 的 正则 表达 陈 表示 的 是 选择 所 有 以 empl 开 头 并 以 其 他 任意 
字符 (也 就 是 .* 部 分 结尾 的 表 名 。 





IN database_name 语 句 和 对 表 名 使 用 正则 表达 式 两 个 功能 尚 不 
支持 同时 使 用 。 


我 们 也 可 以 使 用 DESCRIBE EXTENDED mydb.employees 命 令 来 查 
看 这 个 表 的 详细 表 结 构 信息 。〔 如 果 我 们 当前 所 处 的 工作 数据 库 就 是 
mydb 的 话 ， 那 么 我 们 可 以 不 加 mydb. 这 个 前 级 。) 下 面 显 示 的 内 容 我 们 
进行 过 格式 调整 ， 使 之 查看 起 来 更 加 容易 ， 而 且 我 们 还 省 略 掉 了 一 些 无 
关 紧 要 的 细节 ， 因 为 我 们 只 关注 我 们 感 兴趣 的 信息 : 





hive> DESCRIBE EXTENDED mydb.employees; 

name string Employee name 

salary float Employee salary 

subordinates array<string> Names of subordinates 

deductions map<string, float> Keys are deductions names, values are percentages 
address struct<street:string,city:string, state:string,zip:int> Home address 


Detailed Table Information Table(tableName:employees, dbName:mydb, owner:me, 


location: hdfs://master-server/user/hive/warehouse/mydb.db/employees, 

parameters: {creator=me, created_at='2012-01-02 10:00:00', 
last_modified_user=me, last_modified_time=1337544510, 
comment:Description of the table, ...}, ...) 





使 用 FORMATTED 关 键 字 蔡 代 EXTENDED 关 键 字 的 话 ， 可 以 提供 
更 加 可 读 的 和 宛 长 的 输出 信息 。 ( 译 者 注 : 实际 情况 是 使 用 
FORMATTED 要 更 多 些 ， 因 为 其 输出 内 容 详细 而 且 可 读 性 强 ) 


上 面 输出 信息 的 第 一 段 是 和 没有 使 用 关键 字 EXTENDED 或 者 
ee ee a (例如 ， 只 输出 包含 有 列 描述 信息 的 
四 am) è 


如 果 用 户 只 想 碍 看 茶 一 个 列 的 信息 ， 那 么 只 要 在 表 名 后 增加 这 个 字 
这 种 情况 下 ， 使 用 EXTENDED 关 键 字 也 不 会 增加 更 多 
J 输出 信息 : 





salary float Employee salary 

回 到 之 前 的 那个 包含 详细 扩展 信息 的 输出 。 我 们 需要 特别 注意 以 
location: 开 头 的 那 行 描 述 信 息 。 这 个 是 Hive 在 HDFS 中 的 存储 表 中 数据 的 
完整 的 UREL 目录 路 径 ， 这 个 我 们 之 前 有 讨论 过 的 。 
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我 们 说 过 last_modified_by 和 last_modified_time 两 个 表 属 性 是 会 
自动 创建 的 。 如 果 没 有 定义 任何 的 用 户 自 定 义 表 属 性 的 话 ， 那 么 它 
们 也 不 会 显示 在 表 的 详细 信息 中 ! 


4.3.1 EHK 


我 们 目前 所 创建 的 表 都 是 所 谓 的 管理 表 ， 有 时 也 被 称 为 内 部 表 。 
为 这 种 表 ，Hive 会 (或 多 或 少 地 ) 控制 着 数据 的 生命 周期 。 正 如 我 们 所 
看 见 的 ，Hive 默 认 情 况 下 会 将 这 些 表 的 数据 存储 在 由 配置 项 
hive.metastore.warehouse.dir〈 例 如 ，/uservhive/warehouse) 所 定义 的 目 
录 的 子 目 录 下 。 


_ 当 我 们 删除 一 个 管理 表 时 《参考 第 4.5 节 “) ，Hive 也 会 删除 这 个 表 














但 是 ， 管 理 表 不 方便 和 其 他 工作 共 吝 数据 。 例 如 ， 假 设 我 们 有 一 份 
由 Pig 或 者 其 他 工具 创建 并 且 主 要 由 这 一 工具 使 用 的 数据 ， 同 时 我 们 还 
想 使 用 Hive 在 这 份 数据 上 执行 一 些 查 询 ， 可 是 并 没有 给 予 Hive 对 数据 的 
Rh 我 们 可 以 创建 一 个 外 部 表 指 癌 这 份 数据 ， 而 并 不 需要 对 其 具有 
Mo 


4.3.2 ”外 部 表 


假设 我 们 正在 分 析 来 自 股票 市 场 的 数据 。 我 们 会 定期 地 从 像 
Infochimps(http://infochimps.com/datasets) 这 样 的 数据 源 接 入 关于 
NASDAQ 和 NYSE 的 数据 ， 然 后 使 用 很 多 工具 来 分 析 这 份 数 据 。【〔 我 们 
可 以 看 到 数据 集 名 称 分 别 为 infochimps_dataset_4777_download_16185 和 
infochimps_dataset_4778_download_16677， 实 际 上 该 数据 来 源 于 Yahoo! 








财经 。) 我 们 后 面 将 要 使 用 的 模式 和 这 2 份 源 数据 都 是 匹配 的 。 我 们 假 
设 这 些 数据 文件 位 于 分 布 式 文件 系统 的 /data/stocks 目 录 下 。 


下 面 的 语句 将 创建 一 个 外 部 表 ， 其 可 以 读 取 所 有 位 于 /data/stocks 目 
录 下 的 以 逗号 分 隔 的 数据 : 


CREATE EXTERNAL TABLE IF NOT EXISTS stocks ( 
exchange STRING, 
symbol STRING, 
ymd STRING, 
price_open FLOAT, 
price_high FLOAT, 


price_low FLOAT, 

price_close FLOAT, 

volume INT, 

price_adj_close FLOAT) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
LOCATION '/data/stocks'; 





关键 字 EXTENAL 告 诉 Hive 这 个 表 是 外 部 的 ， 而 后 面 的 
LOCATION... 子 句 则 用 于 告诉 Hive 数 据 位 于 哪个 路 径 下 。 


因为 表 是 外 部 的 ， 所 以 Hive 并 非 认 为 其 完全 拥有 这 份 数据 。 因 此 ， 
E E E 








管理 表 和 外 部 表 有 一 些小 小 的 区 别 ， 那 残 是 ， 有 些 HiveQL 语 法 结 
ee nunca 
讲述 。 


然而 ， 我 们 需要 清楚 的 重要 的 一 点 是 管理 表 和 外 部 表 之 间 的 差异 要 
比 刚 开 始 所 看 到 的 小 得 多 。 即 使 对 于 定理 表 ， 用 户 也 是 可 以 知道 数据 是 
位 于 哪个 路 径 下 的 ， 因 此 用 户 也 是 可 以 使 用 其 他 工具 (例如 hadoop 的 dfs 
命令 等 ) 来 修改 甚至 删除 管理 表 所 在 的 路 径 目 录 下 的 数据 的 。 可 能 从 严 
格 意义 上 来 说 ，Hive 是 管理 着 这 些 目录 和 文件 ， 但 是 其 并 非 具 有 对 它们 
的 完全 控制 权限 ! 回想 下 ， 在 第 3.4 记 “ 读 时 模式 ”中 ， 我 们 说 过 ，Hive 实 
际 上 对 于 所 存储 的 文件 的 完整 性 以 及 数据 内 容 是 否 和 表 模 式 相 一 致 并 没 
有 文 配 能 力 ， 甚 至 管理 表 都 没有 给 用 户 提供 这 些 管理 能 力 。 


尽管 如 此 ， 好 的 软件 设计 的 一 般 原 则 是 表达 意图 。 如 果 数 据 会 被 多 
个 工具 共 吾 ， 那 么 可 以 创建 一 个 外 部 表 ， 来 明确 对 数据 的 所 有 权 。 

















用 户 可 以 在 DESCRIBE EXTENDED tablename 语 句 的 输出 中 查看 到 
表 是 否 是 管 上 在 末尾 的 详细 表 信 息 输 出 中 ， 对 于 管理 表 ， 
用 户 可 以 看 到 如 下 信息 息 








对 于 外 部 表 ， 用 户 可 以 查看 到 如 下 信息 : 


对 于 管理 表 ， 用 户 还 可 以 对 一 张 存 在 的 表 进行 表 结 构 复 制 〈 而 不 会 
复制 数据 ) : 





CREATE EXTERNAL TABLE IF NOT EXISTS mydb.employees3 
LIKE mydb.employees 
LOCATION '/path/to/data'; 
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这 里 ， 如 果 语 句 中 省 略 掉 EXTERNAL 关 键 字 而 且 源 表 是 外 部 
表 的 话 ， 那 么 生成 的 新 表 也 将 是 外 部 表 。 如 果 语 句 中 省 略 掉 
EXTERNAL 关 键 字 而 且 源 表 是 管理 表 的 话 ， 那 么 生成 的 新 表 也 将 
是 管理 表 。 但 是 ， 如 果 语 句 中 包含 有 EXTERNAL 关 键 字 而 且 源 表 
是 管理 表 的 话 ， 那 么 生成 的 新 表 将 是 外 部 表 。 即 使 在 这 种 场景 下 ， 
LOCATION 子 句 同样 是 可 选 的 。 

















4.4 分 区 表 、 管 理 表 


数据 分 区 的 一 般 概念 存在 已 人 入。 其 可 以 有 多 种 形式 ,但 是 通常 使 用 
分 区 来 水 平分 散 压 力 ， 将 数据 从 物理 上 转移 到 和 使 用 最 频繁 的 用 户 更 近 
的 地 方 ， 以 及 实现 其 他 目的 。 


Hive 中 有 分 区 表 的 概念 。 我 们 可 以 看 到 分 区 表 具 有 重要 的 性 能 优 
势 ， 而 且 分 区 表 还 可 以 将 数据 以 一 种 符合 逻辑 的 方式 进行 组 织 ， 比 如 分 
层 存储 。 


我 们 首先 会 讨论 下 分 区 管理 表 。 重 新 来 看 之 前 的 那 张 emplyees 表 并 
假设 我 们 在 一 个 非常 大 的 跨国 公司 工作 。 我 们 的 HR 人 员 经 常会 执行 一 
些 带 WHERE 语 名 的 查询 ， 这 样 可 以 将 结果 限制 在 某 个 特定 的 国家 或 者 
某 个 特定 的 第 一 级 细 分 〈 例 如 * 美 国 的 州 ! 或 者 加 拿 大 的 省 ) 。 (第 一 级 
细 分 是 一 个 存在 的 术语 ， 例 
如 : http://www.commondatahub.com/state_source.jspi% 4 wit (HAA By.) 
为 简单 起 见 我 们 将 只 使 用 到 state CON) 。 在 address (住址 ) 字段 中 已 经 
重复 包含 了 州 信 息 。 这 和 state 分 区 是 不 同 的 。 我 们 可 以 在 字段 address 中 
删除 state 元 素 。 查 询 中 并 不 会 造成 模糊 不 清 的 问题 ， 因 为 我 们 需要 通过 
使 用 address.state 才 能 调用 到 address 中 这 个 元 素 的 值 。 那 么 ， 让 我 们 先 按 
照 country〈 国 家 ) 再 按照 state H) 来 对 数据 进行 分 区 吧 : 








CREATE TABLE employees ( 

name STRING, 

salary FLOAT, 

subordinates ARRAY<STRING>, 

deductions MAP<STRING, FLOAT>, 

address STRUCT<street:STRING, city:STRING, state:STRING, zip: INT> 





) 
PARTITIONED BY (country STRING, state STRING); 


分 区 表 改 变 了 Hive 对 数据 存储 的 组 织 方式 。 如 果 我 们 是 在 mydb 数 
据 库 中 创建 的 这 个 表 ， 那 么 对 于 这 个 表 只 会 有 一 个 employees 目 录 与 之 
对 应 : 


但 是 ，Hive 现 在 将 会 创建 好 可 以 反映 分 区 结构 的 子 目录 。 例 如 : 











.../employees/country=CA/state=AB 
.../employees/country=CA/state=BC 


.../employees/country=US/state=AL 
.../employees/country=US/state=AK 











是 的 ， 那 些 是 实际 的 目录 名 称 。 州 目录 下 将 会 包含 有 零 个 文件 或 者 
多 个 文件 ， 这 些 文件 中 存放 着 那些 州 的 雇员 信息 。 


分 区 字段 (这 个 例子 中 就 是 country 和 state) 一 旦 创建 好 ， 表 现 得 就 
和 普通 的 字段 一 样 。 这 里 有 一 个 已 知 的 异常 情况 ， 是 由 一 个 bug 引 起 的 
(参考 第 6.1.4 节 中 的 “聚合 函数 ”内 容 ) 。 事 实 上 ， 除 非 需 要 优化 查询 性 
能 ， 人 否则 使 用 这 些 表 的 用 户 不 需要 关心 这 些 “ 字 段 ?" 是 否 是 分 区 字段 。 


例如 ， 下 面 这 个 碍 询 语 句 将 会 得 找 出 在 美国 伊利 诡 斯 州 的 所 有 雇 











“0 


SELECT * FROM employees 
WHERE country = 'US' AND state = 'IL'; 


需要 注意 的 是 ， 因 为 country 和 state 的 值 已 经 包含 在 文件 目录 名 称 中 
了 ， 所 以 也 就 没有 必要 将 这 些 值 存放 到 它们 目录 下 的 文件 中 了 。 事 实 
上 上 ， 数 据 只 能 从 这 些 文件 中 获得 ， 因 此 用 户 需 要 在 表 的 模式 中 说 明 这 
点 ， 而 且 这 个 数据 浪费 空间 。 


对 数据 进行 分 区 ， 也 许 最 重要 的 原因 就 是 为 了 更 快 地 查询 。 在 前 面 
那个 将 结果 范围 限制 在 伊利 诡 斯 州 的 雇员 的 查询 中 ， 仅 仅 需 要 扫描 一 个 
目录 下 的 内 容 即 可 。 即 使 我 们 有 成 千 上 万 个 国家 和 州 目录 ， 除 了 一 个 目 
录 其 他 的 都 可 以 忽略 不 计 。 对 于 非常 大 的 数据 集 ， 分 区 可 以 显著 地 提高 
查询 性 能 ， 除 非 对 分 区 进行 常见 的 范围 得 选 〈 例 如 ， 按 照 地 理 位 置 范 围 
或 按照 时 间 范 围 等 ) 。 


当 我 们 在 WHERE 子 句 中 增加 谓词 来 按照 分 区 值 进行 过 滤 时 ， 这 些 
谓词 被 称 为 分 区 过 滤器 。 


即使 你 做 一 个 跨越 整个 美国 的 查询 ，Hive 也 只 会 读 取 65 个 文件 目 
录 ， 其 中 包含 有 50 个 州 ，9 大 地 区 ， 以 及 哥伦比亚 特区 和 6 个 军事 属地 。 
可 以 通过 如 下 链接 查看 完整 的 列 
表 : http://www.50states.com/abbreviations.htm。 























当然 ， 如 果 用 户 需 要 做 一 个 查询， 但 询 对 象 是 全 球 各 地 的 所 有 员 
工 ， 那 么 这 也 是 可 以 做 到 的 。Hive 会 不 得 不 读 取 每 个 文件 目录 ， 但 这 种 
宽 范 围 的 磁盘 扫描 还 是 比较 少见 的 。 


但 是 ， 如 果 表 中 的 数据 以 及 分 区 个 数 都 非常 大 的 话 ， 执 行 这 样 一 个 
包含 有 所 有 分 区 的 碍 询 可 能 会 触发 一 个 巨大 的 MapReduce 任 务 。 一 个 高 
度 建 议 的 安全 措施 就 是 将 Hive 设 置 为 “strict( 严 格 )”* 模 式 ， 这 样 如 果 对 分 
区 表 进 行 查询 而 WHERE 子 句 没 有 加 分 区 过 滤 的 话 ， 将 会 禁止 提交 这 个 
任务 。 用 户 也 可 以 按照 下 面 的 语句 将 属性 值 设 置 为 “nostrict( 非 严格 )”: 





hive> set hive.mapred.mode=strict; 


hive> SELECT e.name, e.salary FROM employees e LIMIT 100; 
FAILED: Error in semantic analysis: No partition predicate found for 
Alias "e" Table "employees" 


hive> set hive.mapred.mode=nonstrict; 


hive> SELECT e.name, e.salary FROM employees e LIMIT 100; 
John Doe 100000.0 








可 以 通过 SHOW PARTITIONS 命 令 查看 表 中 存在 的 所 有 分 区 : 


hive> SHOW PARTITIONS employees; 


Country=CA/state=AB 
country=CA/state=BC 


country=US/state=AL 
country=US/state=AK 














如 果 表 中 现在 存在 很 多 的 分 区 ， 而 用 户 只 想 查 看 是 否 存储 某 个 特定 
分 区 键 的 分 区 的 话 ， 用 户 还 可 以 在 这 个 命令 上 增加 一 个 指定 了 一 个 或 者 
多 个 特定 分 区 字段 值 的 PARTITION 子 句 ， 进 行 过 滤 查 询 : 





hive> SHOW PARTITIONS employees PARTITION(country='US'); 
country=US/state=AL 
country=US/state=AK 


hive> SHOW PARTITIONS employees PARTITION(country='US', state='AK'); 
country=US/state=AK 
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DESCRIBE EXTENDED employees tiv 4 


hive> DESCRIBE EXTENDED employees; 
name string, 
salary float, 


address struct<...>, 
country string, 
state string 


Detailed Table Information... 
partitionkeys: [FieldSchema(name:country, type:string, comment:null), 
FieldSchema(name:state, type:string, comment:null)], 











输出 信息 中 的 模式 信息 部 分 会 将 country 和 state 以 及 其 他 字段 列 在 一 
起 ， 因 为 就 查询 而 言 ， 它 们 就 是 字段 。Detailed Table Information (详细 
表 信 息 ) 将 country 和 state 作 为 分 区 键 处 理 。 这 两 个 键 当前 的 注释 都 是 
nul， 我 们 也 可 以 像 给 普通 的 字段 增加 注释 一 样 给 分 区 字段 增加 注释 。 


在 管理 表 中 用 户 可 以 通过 载 入 数据 的 方式 创建 分 区 。 如 下 例 中 的 语 
名 在 从 一 个 本 地 目录 ($HOME/california-employees) 载 入 数据 到 表 中 的 
时 候 ， 将 会 创建 一 个 US 和 CA (表示 加 利 福 尼 亚 州 ) 分 区 。 用 户 需要 为 
每 个 分 区 字段 指定 一 个 值 。 请 注意 我 们 在 HiveQL 中 是 如 何 引 用 HOME 
环境 变量 的 : 








LOAD DATA LOCAL INPATH '${env:HOME}/california-employees' 
INTO TABLE employees 





PARTITION (country = 'US', state = 'CA'); 


Hive 将 会 创建 这 个 分 区 对 应 的 目 
录 .../employees/country=US/state=CA， 而 且 $HOME/california-employees 
这 个 目录 下 的 文件 将 会 被 揽 贝 到 上 述 分 区 目录 下 。 参 见 第 5.1 节 ”中 的 内 


P 


Pe 
4.4.1 外 部 分 区 表 

外 部 表 同 样 可 以 使 用 分 区 。 事 实 上 ， 用 户 可 能 会 发 现 ， 这 是 管理 大 
型 生产 数据 集 最 常见 的 情况 。 这 种 结合 给 用 户 提 供 了 一 个 可 以 和 其 他 工 
具 共 享 数 据 的 方式 ， 同 时 也 可 以 优化 查询 性 能 。 


因为 用 户 可 以 自己 定义 目录 结构 ， 因 此 用 户 对 于 目录 结构 的 使 用 上 其 
有 更 多 的 灵活 性 。 稍 后 我 们 将 看 到 一 个 特别 有 用 的 例子 。 


我 们 举 一 个 新 例子 ， 非 党 适合 这 种 场景 ， 即 日 志文 件 分 析 。 对 于 日 











志 信 息 ， 大 多 数 的 组 织 使 用 一 个 标准 的 格式 ， 其 中 记录 有 时 间 惟 、 严 重 
程度 〈 例 如 ERROR、WARTING、INFO) ， 也 许 还 包含 有 服务 器 名 称 
和 进程 ID， 然 后 跟着 一 个 可 以 为 任何 内 容 的 文本 信息 。 假 设 我 们 是 在 我 
们 的 环境 中 进行 数据 抽取 、 数 据 转换 和 数据 装载 过 程 CETL) ， 以 及 日 
志文 件 聚 合 过 程 的 ， 将 每 条 日 志 信息 转换 为 按照 制 表 键 分 割 的 记录 ， 并 
将 时 间 戳 解析 成 年 、 月 和 日 3 个 字段 ， 剩 余 的 hms 部 分 〈 也 束 是 时 间 惟 剩 
余 的 小 时 、 分 钟 和 秒 部 分 〉 作 为 一 个 字段 ， 因 为 这 样 显得 清楚 多 了 。 一 
种 方式 是 用 户 可 以 使 用 Hive 或 者 Pig 内 置 的 字符 串 解析 函数 来 完成 这 个 

日 志 信 息 解 析 过 程 。 另 一 种 方式 是 ， 我 们 可 以 使 用 较 小 的 数值 类 型 来 保 
人 

法 。 





我 们 可 以 按照 如 下 方式 来 定义 对 应 的 Hive 表 : 


CREATE EXTERNAL TABLE IF NOT EXISTS log_messages ( 
hms 
severity STRING, 
server STRING, 
process_id INT, 


message STRING) 
PARTITIONED BY (year INT, month INT, day INT) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; 





我 们 现在 假定 将 日 志 数 据 按照 天 进行 划分 ， 划 分 数据 尺寸 合适 ， 而 
且 按 天 这 个 粒度 进行 得 询 速度 也 足够 快 。 


回想 下 ， 之 前 我 们 创建 过 一 个 非 分 区 外 部 表 ， 是 一 个 股票 交易 表 ， 
那 时 要 求 使 用 一 个 LOCATION 子 句 。 对 于 外 部 分 区 表 则 没有 这 样 的 要 
求 。 有 一 个 ALTER TABLE 语句 可 以 单独 进行 增加 分 区 。 这 个 语句 需要 
为 每 一 个 分 区 键 指定 一 个 值 ， 本 例 中 ， 也 就 是 需要 为 year、month 和 day 
这 3 个 分 区 键 都 指定 值 (关于 这 个 功能 请 参考 4.6 节 中 的 内 容 ) 。 下 面 是 
一 个 例子 ， 演 示 如 何 增加 一 个 2012 年 1 月 2 日 的 分 区 : 








ALTER TABLE log_messages ADD PARTITION(year = 2012, month = 1, day = 2) 


LOCATION 'hdfs://master_server/data/log_messages/2012/01/02' ; 





我 们 使 用 的 目录 组 织 习 惯 完 全 由 我 们 自己 定义 。 这 里 ， 我 们 按照 分 
层 目 录 结 构 组 织 ， 因 为 这 是 一 个 合乎 逻辑 的 数据 组 织 方式 ， 但 是 并 非 要 
求 一 定 如 此 。 我 们 可 以 遵从 Hive 的 目录 命名 习惯 (例如 ， 
.../exchange=NASDAQ/symbol=AAPL) ， 但 是 也 并 非 要 求 一 定 如 此 。 


这 种 灵活 性 的 一 个 有 趣 的 优点 是 我 们 可 以 使 用 像 Amazon S3 这 样 的 
廉价 的 存储 设备 存储 旧 的 数据 ， 同 时 保存 较 新 的 更 加 “有 趣 的 ?数据 到 
HDFS 中 。 例 如 ， 每 天 我 们 可 以 使 用 如 下 的 处 理 过 程 将 一 个 月 前 的 旧 数 
据 转 移 到 S3 中 。 


Q 将 分 区 下 的 数据 拷贝 到 S3 中 。 例 如 ， 用 户 可 以 使 用 hadoop distcp 


TS: 


@) 修改 表 ， 将 分 区 路 径 指 向 到 S3 路 径 : 
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ALTER TABLE log_messages PARTITION(year = 2011, month = 12, day = 2) 





SET LOCATION 's3n://ourbucket/logs/2011/01/02'; 
© 使 用 hadoop fs -rmr 命令 删除 掉 HDFS 中 的 这 个 分 区 数据 : 


并 非 一 定 要 是 Amazon 弹 性 MapReduce 用 户 才 能 够 这 样 使 用 S3。 
Apache Hadoop 分 文 版 本 包含 了 对 S3 的 文 持 。 用 户 仍 旧 是 可 以 查询 这 些 
数据 的 ， 甚 至 允许 查询 越过 一 个 月 时 间 范 围 的 “界限 ”， 也 惑 是 有 些 数据 
是 从 HDFS 中 读 取 的 ， 有 些 数据 是 从 S3 中 读 取 的 ! 


顺便 说 一 下 ，Hive 不 关心 一 个 分 区 对 应 的 分 区 目录 是 否 存 在 或 者 分 
区 目录 下 是 否 有 文件 。 如 果 分 区 目录 不 存在 或 分 区 目录 下 没有 文件 ， 则 
对 于 这 个 过 滤 分 区 的 查询 将 没有 返回 结果 。 当 用 户 想 在 另外 一 个 进程 开 
始 往 分 区 中 写 数据 之 前 创建 好 分 区 时 ， 这 样 做 是 很 方便 的 。 数 据 一 旦 存 
在 ， 对 于 这 份 数据 的 查询 就 会 有 返回 结果 。 


这 个 功能 所 具有 的 另 一 个 好 处 是 : 可 以 将 新 数据 写 入 到 一 个 专用 的 
目录 中 ， 并 与 位 于 其 他 目录 中 的 数据 存在 明显 的 区 别 。 同 时 ， 不 管用 户 
是 将 旧 数 据 转移 到 一 个 “存档 ”位 置 还 是 直接 删除 掉 ， 新 数据 被 算 改 的 风 
险 都 被 降低 了 ， 因 为 新 数据 的 数据 子 集 位 于 不 同 的 目录 下 。 


和 非 分 区 外 部 表 一 样 ，Hive 并 不 控制 这 些 数据 。 即 使 表 被 删除 ， 数 
据 也 不 会 被 删除 。 


和 分 区 管理 表 一 样 ， 通 过 SHOW PARTITIONS 命 令 可 以 查看 一 个 外 



































部 表 的 分 区 : 


hive> SHOW PARTITIONS log_messages; 


year=2011/month=12/day=31 


year=2012/month=1/day=1 
year=2012/month=1/day=2 





同样 地 ，DESCRIBE EXTENDED log_messages 语 句 会 将 分 区 键 作 
为 表 的 模式 的 一 部 分 ， 和 partitionKeys 列 表 的 内 容 同 时 进行 显示 : 


hive> DESCRIBE EXTENDED log_messages; 


string, 

int, 
int, 
int 


Detailed Table Information... 

partitionkeys: [FieldSchema(name:year, type:int, comment:null), 
FieldSchema(name:month, type:int, comment:null), 
FieldSchema(name:day, type:int, comment:null)], 








这 个 输出 缺少 了 一 个 非常 重要 的 信息 ， 那 就 是 分 区 数据 实际 存在 的 
路 径 。 这 里 有 一 个 路 径 字 段 ， 但 是 该 字段 仅仅 表示 如 果 表 是 管理 表 其 会 
使 用 到 的 Hive 默 认 的 目录 。 不 过 ， 我 们 可 以 通过 如 下 方式 但 看 到 分 区 数 
据 所 在 的 路 径 : 


hive> DESCRIBE EXTENDED log_messages PARTITION (year=2012, month=1, day=2); 











location:s3n://ourbucket/logs/2011/01/02, 
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数据 管理 、 高 性 能 的 查询 等 。 


ALTER TABLE ... ADD PARTITION 语 句 并 非 只 有 对 外 部 表 才 能 够 
使 用 。 对 于 管理 表 ， 当 有 分 区 数据 不 是 由 我 们 之 前 讨论 过 的 LOAD 和 
INSERT 语 句 产 生 时 ， 用 户 同 样 可 以 使 用 这 个 命令 指定 分 区 路 径 。 用 户 
需要 记 住 并 非 所 有 的 表 数 据 都 是 放 在 通常 的 Hive“warehouse” 日 录 下 的 ， 
同时 当 删 除 管 理 表 时 ， 这 些 数据 不 会 连带 被 删除 掉 ! 因此 ， 从 “理智 
的 ”角度 来 看 ， 是 否 敢 于 对 管理 表 使 用 这 个 功能 是 一 个 问题 。 














4.4.2 ” 自 定 义 表 的 存储 格式 


在 第 3.3 节 “文本 文件 数据 编码 ”中 ， 我 们 谈论 过 Hive 的 默认 存储 格式 
是 文本 文件 格式 ， 这 个 也 可 以 通过 可 选 的 子 名 STORED AS TEXTFILE 
显 式 指定 ， 同 时 用 户 还 可 以 在 创建 表 时 指定 各 种 各 样 的 分 隔 符 。 这 里 我 
们 重新 展示 下 之 前 讨论 过 的 那个 employees 表 : 


CREATE TABLE employees ( 
name STRING, 
salary FLOAT, 
subordinates ARRAY<STRING>, 


deductions MAP<STRING, FLOAT>, 
address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT> 


ROW FORMAT DELIMITED 

FIELDS TERMINATED BY '\001' 
COLLECTION ITEMS TERMINATED BY '\002' 
MAP KEYS TERMINATED BY '\003' 

LINES TERMINATED BY '\n' 

STORED AS TEXTFILE,; 








TEXTFILE 意 味 着 所 有 字段 都 使 用 字母 、 数 字 、 字 符 编 码 ， 包 括 那 
些 国际 字符 集 ， 尽 管 我 们 可 以 发 现 Hive 默 认 是 使 用 不 可 见 字 符 来 作 
为 “终结 者 ”分隔 符 ) 的 。 使 用 TEXTFILE 就 意味 着 ， 每 一 行 被 认为 是 
一 个 单独 的 记录 。 


用 户 可 以 将 TEXTFILE 蔡 换 为 其 他 Hive 所 支持 的 内 置 文件 格式 ， 包 
括 SEQUENCEFILE 和 RCEFILE， 这 两 种 文件 格式 都 是 使 用 二 进 制 编码 和 
压缩 〈 可 选 ) 来 优化 磁盘 空间 使 用 以 及 I/ 0 带宽 性 能 的 。 这 些 文件 格式 
在 和 将 会 有 更 详细 的 介绍 。 


对 于 记录 是 如 何 锐 编码 成 文件 的 ， 以 及 列 是 如 何 被 编码 为 记录 的 ， 
Hive 指 出 了 它们 之 间 的 不 同 。 用 户 可 以 分 别 自 定 义 这 些 行为 。 


记录 编码 是 通过 一 个 inputformat 对 象 来 控制 的 (例如 TEXTFILE 后 
面 的 Java 代 码 实 现 ) 。Hive 使 用 了 一 个 名 为 
org.apache.hadoop.mapred.TextInputFormat 的 Java 类 (编译 后 的 模块 〉。 
如 果 用 户 不 熟悉 Java 的 话 ， 这 种 点 分 割 的 命名 语法 表明 了 包 的 一 个 分 层 
的 树 形 命名 空间 ， 这 个 结构 和 Java 代 码 的 目录 结构 是 对 应 的 。 最 后 一 个 
名 字 ，TextInputFormat， 是 位 于 最 顶层 包 mapred 下 的 一 个 类 。 


记录 的 解析 是 由 序列 化 器 / 反 序 列 化 器 《或 者 缩写 为 SerDe) 来 控制 


























的 。 对 于 TEXTFILE 和 我 们 在 第 3 章 讨 论 的 编码 以 及 上 面 我 们 所 重申 的 例 
子 ，Hive 所 使 用 的 SerDe 是 另外 一 个 被 称 为 


org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe 的 Java 类 。 


为 了 保持 完整 性 ，Hive 还 使 用 一 个 叫做 outputformat 的 对 象 来 将 查询 
的 输出 写 入 到 文件 中 或 者 输出 到 控制 台 。 对 于 TEXTFILE， 用 于 输出 的 
Java 类 名 为 
org.apache.hadoop.hive.ql.io.HivelgnoreKeyTextOutputFormat. 
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Hive 使 用 一 个 inputformat 对 象 将 输入 流 分 割 成 记录 ， 然 后 使 用 
一 个 outputformat 对 象 来 将 记录 格式 化 为 输出 流 〔 例 如 查询 的 输出 
结果 ) ， 再 使 用 一 个 SerDe 在 读数 据 时 将 记录 解析 成 列 ， 在 写 数据 
时 将 列 编码 成 记录 。 在 第 15 章 我 们 将 对 此 展开 更 深入 的 讨论 。 


用 户 还 可 以 指定 第 三 方 的 输入 和 输出 格式 以 及 SerDe， 这 个 功能 
许 用 户 自 定义 Hive 本 里 不 支持 的 其 他 广泛 的 文件 格式 。 


这 里 有 一 个 使 用 了 自 定 义 SerDe、 输 入 格式 和 输出 格式 的 完整 的 例 
子 ， 其 可 以 通过 Avro 协议 访问 这 些 文 件 ， 第 5.11 节 “AvroHive SerDe” 中 
将 会 介绍 到 Avro 协议 : 


CREATE TABLE kst 

PARTITIONED BY (ds string) 

ROW FORMAT SERDE 'com.linkedin.haivvreo.AvroSerDe' 

WITH SERDEPROPERTIES ('schema.url'='http://schema_provider/kst.avsc' ) 


STORED AS 
INPUTFORMAT 'com.linkedin.haivvreo.AvroContainerInputFormat ' 
OUTPUTFORMAT 'com. linkedin. haivvreo.AvroContainerOutputFormat'; 





ROW FORMAT SERDE ... 指 定 了 使 用 的 SerDe。Hive 提 供 了 WITH 
SERDEPROPERTIES 功 能 ， 人 允许 用 户 传递 配置 信息 给 SerDe。Hive 本 刁 
并 不 知晓 这 些 属性 的 含义 ， 需 要 SerDe 去 决定 这 些 属性 所 代表 的 含义 。 
需要 注意 的 是 ， 每 个 属性 名 称 和 值 都 应 该 是 带 引 号 的 字符 串 。 


STORED AS INPUTFORMAT ... OUTPUTFORMAT ... 子 句 分 别 指 
定 了 用 于 输入 格式 和 输出 格式 的 Java 类 。 如 果 要 指定 ， 用 户 必须 对 输入 


格式 和 输出 格式 都 进行 指定 。 


需要 注意 的 是 ，DESCRIBE EXTENDED table 命 令 会 在 DETAILED 
TABLE INFORMATION 部 分 列举 出 输入 和 输出 格式 以 及 SerDe 和 SerDe 
所 上 自 市 的 属性 信息 。 对 于 我 们 的 例子 ， 我 们 可 以 查看 到 如 下 信息 : 


hive> DESCRIBE EXTENDED kst 


inputFormat:com.linkedin.haivvreo.AvroContainerInputFormat, 
outputFormat:com.linkedin.haivvreo.AvroContainerOutputFormat, 


serdeInfo:SerDeInfo(name:null, 
serializationLib:com.linkedin.haivvreo.AvroSerDe, 
parameters: {schema.url=http://schema_provider/kst.avsc}) 





最 后 ， 还 有 一 些 额 外 的 CREATE TABLE 子 句 来 更 详细 地 描述 数据 
期 望 是 按照 什么 样子 存储 的 。 我 们 重新 扩展 下 在 第 4.3.2 节 “外 部 表 ” 中 使 
用 到 的 stocks 表 : 





CREATE EXTERNAL TABLE IF NOT EXISTS stocks ( 

exchange STRING, 

symbol STRING, 

ymd STRING, 

price_open FLOAT, 

price_high FLOAT, 

price_low FLOAT, 

price_close FLOAT, 

volume INT, 

price_adj_close FLOAT) 


CLUSTERED BY (exchange, symbol) 

SORTED BY (ymd ASC) 

INTO 96 BUCKETS 

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
LOCATION '/data/stocks'; 





CLUSTERED BY ... INTO ... BUCKETS 子 句 还 可 以 后 接 一 个 可 选 
的 SORTED BY ... 子 句 ， 用 来 优化 某 些 特定 类 型 的 查询 ， 在 第 9.6 节 “分 
桶 表 数 据 存储 ”中 将 会 更 详细 地 进行 讨论 。 


4.5 WEK 
Hive 支 持 和 SQL 中 DROP TABLE 命令 类 似 的 操作 : 


DROP TABLE IF EXISTS employees; 


可 以 选择 是 人 否 使 用 IF EXITST 关 键 字 。 如 果 没 有 使 用 这 个 关键 字 而 
且 表 并 不 存在 的 话 ， 那 么 将 会 抛 出 一 个 错误 信息 。 


对 于 管理 表 ， 表 的 元 数据 信息 和 表 内 的 数据 都 会 被 删除 。 
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事实 上 ， 如 果 用 户 开 启 了 Hadoop 回 收 站 功能 (这 个 功能 默认 是 
关闭 的 ) ， 那 么 数据 将 会 被 转移 到 用 户 在 分 布 式 文件 系统 中 的 用 户 
根 目 录 下 的 .Trash 目 录 下 ， 也 就 是 HDFS 中 的 /user/$USER/.Trash 晶 
录 。 如 果 想 开局 这 个 功能 ， 只 需要 将 配置 属性 fs.trash.interval 的 值 
设置 为 一 个 合理 的 正 整数 即 可 。 这 个 值 是 “回收 站 检查 点 ” 间 的 时 间 
间隔 ， 单 位 是 分 钟 。 因 此 如 果 设 置 值 为 1440， 那 么 就 表示 是 24 小 
时 。 不 过 并 不 能 保证 所 有 的 分 布 式 系 统 以 及 所 有 版 本 都 是 文 持 的 这 
个 功能 的 。 如 果 用 户 不 小 心 删除 了 一 张 存储 着 重要 数据 的 管理 表 的 
话 ， 那 么 可 以 先 重建 表 ， 人 然后 重建 所 需要 的 分 区 ， 再 从 .Trash 目 录 
中 将 误 删 的 文件 移动 到 正确 的 文件 目录 下 使 用 文件 系统 命令 ) 来 
重新 存储 数据 。 


对 于 外 部 表 ， 表 的 元 数据 信息 会 被 删除 ， 但 是 表 中 的 数据 不 会 被 删 
除 。 














46 ”修改 表 


大 多 数 的 表 属 性 可 以 通过 ALTER TABLE 语 句 来 进行 修改 。 这 种 操 
作 会 修改 元 数据 ， 但 不 会 修改 数据 本 身 。 这 些 语句 可 用 于 修改 表 模 式 中 
出 现 的 错误 、 改 变 分 区 路 径 〈 在 第 4.4.1 节 “外 部 分 区 表 ” 中 有 讨论 过 ) ， 
以 及 其 他 一 些 操作 。 
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ALTER TABLE 仅 仅 会 修改 表 元 数据 ， 表 数据 本 身 不 会 有 任何 
修改 。 需 要 用 户 自 己 确认 所 有 的 修改 都 和 真实 的 数据 是 一 致 的 。 


46.1 表 重 命名 

使 用 以 下 这 个 语句 可 以 将 表 log_messages 重 命名 为 logmsgs: 
4.6.2 ”增加 、 修 改 和 删除 表 分 区 

正如 我 们 前 面 所 见 到 的 ，ALTER TABLE table ADD PARTITION ... 
语句 用 于 为 表 (通常 是 外 部 表 ) 增加 一 个 新 的 分 区 。 这 里 我 们 增加 可 提 
供 的 可 选项 ， 然 后 多 次 重复 前 面 的 分 区 路 径 语 句 : 


ALTER TABLE log_messages ADD IF NOT EXISTS 
PARTITION (year = 2011, month = 1, day = 1) LOCATION '/logs/2011/01/01' 
PARTITION (year = 2011, month = 1, day = 2) LOCATION '/logs/2011/01/02' 





PARTITION (year = 2011, month = 1, day = 3) LOCATION '/logs/2011/01/03' 


当 使 用 Hive v0.8.0 或 其 后 的 版 本 时 ， 在 同一 个 查询 中 可 以 同时 增加 
多 个 分 区 。 一 如 既往 ，IF NOT EXISTS 也 是 可 选 的 ， 而 且 含 义 不 变 。 
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Hive v0.7.* 版 本 允许 用 户 指 定 多 个 分 区 ， 但 是 实际 上 只 会 使 用 
第 一 个 指定 的 分 区 ， 而 将 其 他 的 分 区 默认 省 略 掉 了 ! 其 替代 方案 
是 ， 对 每 一 个 分 区 都 使 用 ALTER STATEMENT 语 句 。 


同时 ， 用 户 还 可 以 通过 高 效 地 移动 位 置 来 修改 某 个 分 区 的 路 径 : 


ALTER TABLE log_messages PARTITION(year = 2011, month = 12, day = 2) 





SET LOCATION 's3n://ourbucket/logs/2011/01/02'; 
这 个 命令 不 会 将 数据 从 旧 的 路 径 转 移 走 ， 也 不 会 删除 旧 的 数据 。 
最 后 ， 用 户 可 以 通过 如 下 语句 删除 某 个 分 区 : 


按照 常规 ， 上 面 语句 中 的 IF EXISTS 子 句 是 可 选 的 。 对 于 管理 表 ， 
即使 是 使 用 ALTER TABLE ... ADD PARTITION 语句 增加 的 分 区 ， 分 区 
内 的 数据 也 是 会 同时 和 元 数据 信息 一 起 被 删除 的 。 对 于 外 部 表 ， 分 区 内 
数据 不 会 被 删除 。 


还 有 其 他 一 些 和 分 区 相关 的 ALTER 语 句 将 会 在 第 4.6.7” 和 第 4.6.8 
节 “ 中 进行 讨论 。 
4.6.3 ”修改 列 信息 

用 户 可 以 对 某 个 字段 进行 重 命名 ， 并 修改 其 位 置 、 类 型 或 者 注释 : 











ALTER TABLE log_messages 
CHANGE COLUMN hms hours_minutes_seconds INT 


COMMENT 'The hours, minutes, and seconds part of the timestamp' 
AFTER severity; 








即使 字段 名 或 者 字段 类 型 没有 改变 ， 用 户 也 需要 完全 指定 旧 的 字段 
名 ， 并 给 出 新 的 字段 名 及 新 的 字段 类 型 。 关 键 字 COLUMN 和 
COMMENT 子 句 都 是 可 选 鸭 。 前 面 所 演示 的 例子 中 ， 我 们 将 字段 转移 到 
severity 字 段 之 后 。 如 果 用 户 想 将 这 个 字段 移动 到 第 一 个 位 置 ， 那 么 只 需 
要 使 用 FIRST 关 键 字 替代 AFTER other_column 子 句 即 可 。 


和 通常 一 样 ， 这 个 命令 只 会 修改 元 数据 信息 。 如 果 用 户 移 动 的 是 字 
段 ， 那 么 数据 也 应 当 和 新 的 模式 匹配 或 者 通过 其 他 茶 些 方法 修改 数据 以 











使 其 能 够 和 模式 匹配 。 
4.6.4 增加 列 
用 户 可 以 在 分 区 字段 之 前 增加 新 的 字段 到 已 有 的 字段 之 后 。 


ALTER TABLE log_messages ADD COLUMNS ( 
app_name STRING COMMENT ‘Application name', 


session_id LONG COMMENT 'The current session id'); 











COMMENT 子 句 和 通常 一 样 ， 是 可 选 的 。 如 果 新 增 的 字段 中 有 某 个 
或 多 个 字段 位 置 是 错误 的 ， 那 么 需要 使 用 ALTER COULME 表 名 
CHANGE COLUMN 语句 逐一 将 字段 调整 到 正确 的 位 置 。 


4.6.5 删除 或 者 蔡 换 列 





下 面 这 个 例子 移 除了 之 前 所 有 的 字段 并 重新 指定 了 新 的 字段 : 


ALTER TABLE log_messages REPLACE COLUMNS ( 
hours_mins_secs INT COMMENT 'hour, minute, seconds from timestamp', 


severity STRING COMMENT 'The message severity' 
message STRING COMMENT 'The rest of the message'); 





这 个 语句 实际 上 重 命 名 了 之 前 的 hms 字 段 并 且 从 之 前 的 表 定 义 的 模 
式 中 移 除 了 字段 server 和 process_id。 因 为 是 ALTER 语 句 ， 所 以 只 有 表 的 
元 数据 信息 改变 了 。 


REPLACE 语 句 只 能 用 于 使 用 了 如 下 2 种 内 置 SerDe 模 块 的 表 : 
DynamicSerDe 或 者 MetadataTypedColumnsetSerDe 。 回 想 一 下 ，SerDe 
决定 了 记录 是 如 何 分 解 成 字段 的 〈 反 序列 化 过 程 ) 以 及 字段 是 如 何 写 入 
到 存储 中 的 (序列 化 过 程 》。 第 15 章 有 关于 SerDe 更 详细 的 信息 。 


46.6 ”修改 表 属 性 


fe re ee a tere ee 但 是 无 法 删 
除 属性 : 


ALTER TABLE log_messages SET TBLPROPERTIES ( 











"notes' = 'The process id is no longer captured; this column is always NULL'); 


4.6.7 ”修改 存储 属性 
有 几 个 ALTER TABLE 语句 用 于 修改 存储 格式 和 SerDe 属 性 。 


下 面 这 个 语句 将 一 个 分 区 的 存储 格式 修改 成 了 SEQUENCE FILE, 
我 们 在 第 4.3 节 “创建 表 ” 中 讨论 过 存储 格式 (第 11.5 节 “sequence file 存 储 
格式 ?和 第 15 章 有 更 详细 的 信息 ) : 


ALTER TABLE log_messages 
PARTITION(year = 2012, month = 1, day = 1) 
SET FILEFORMAT SEQUENCEFILE; 


如 果 表 是 分 区 表 ， 那 么 需要 使 用 PARTITION 子 句 。 


用 户 可 以 指定 一 个 新 的 SerDe， 并 为 其 指定 SerDe 属 性 ， 或 者 修改 已 
经 存在 的 SerDe 的 属性 。 下 面 这 个 例子 演示 的 表 使 用 了 一 个 名 为 
com.example.JSONSerDe 的 Java 类 来 处 理 记 录 使 用 JSON 编 码 的 文件 : 
ALTER TABLE table_using_JSON_storage 


SET SERDE 'com.example.JSONSerDe' 
WITH SERDEPROPERTIES ( 


"prop1' = 'valuei', 
"prop2' = 'value2'); 





SERDEPROPERTIES 中 的 属性 会 被 传递 给 SerDe 模 块 〈 本 例 中 ， 也 
就 是 com.example. 
JSONSerDe 这 个 Java 类 ) 。 需 要 注意 的 是 ， 属 性 名 《例如 prop1) 和 属性 
值 〈 例 如 valuel) 都 应 当 是 带 引 号 的 字符 串 。 


SERDEPROPERTIES 这 个 功能 是 一 种 方便 的 机 制 ， 它 使 得 SerDe 的 
各 种 实现 都 允许 用 户 进行 自 定 义 。 第 15.10 节 “JSON SerDe” 中 我 们 将 可 
以 看 到 一 个 真实 的 JSON SerDe 例 子 ， 以 及 它 是 如 何 使 用 
SERDEPROPERTIES. 


下 面 这 个 例子 演示 了 如 何 回 一 个 已 经 存在 着 的 SerDe 增 加 新 的 
SERDEPROPERTIES 属 性 : 


ALTER TABLE table_using_JSON_storage 
SET SERDEPROPERTIES ( 


"prop3' = 'value3', 
"prop4' = 'value4'); 





我 们 可 以 修改 在 第 4.3 节 “创建 表 ” 中 讲 到 的 存储 属性 : 


ALTER TABLE stocks 

CLUSTERED BY (exchange, symbol) 
SORTED BY (symbol) 

INTO 48 BUCKETS; 


SORTED BY 子 句 是 可 选 的 ， 但 是 CLUSTER BY 和 INTO ... 
BUCKETS 子 句 是 必 选 的 。 (在 第 9.6 节 “分 桶 表 数 据 存 储 ” 中 将 会 更 详细 
介绍 数据 分 桶 。) 


4.6.8 ”众多 的 修改 表 语 句 


在 第 12.3.2 节 “执行 钩子 "中 ， 我 们 将 讨论 一 种 为 各 种 操作 增加 执 
ITTRI. ALTER TABLE ... TOUCH 语句 用 于 触发 这 些 钩子 : 


ALTER TABLE log_messages TOUCH 
PARTITION(year = 2012, month = 1, day = 1); 


PARTITION 子 句 用 于 分 区 表 。 这 种 语句 的 一 个 典型 应 用 场景 是 ， 
当 表 中 存储 的 文件 在 Hive 之 外 被 修改 了 ， 就 会 触发 钩子 的 执行 。 例 如 ， 
某 个 脚本 往 分 区 2012/0101 中 写 入 了 新 的 日 志 信息 文件 ， 可 以 在 Hive 
CLI 中 进行 下 面 的 调用 : 











hive -e 'ALTER TABLE log_messages TOUCH PARTITION(year = 2012, month = 1, day = 1);' 


如 果 表 或 者 分 区 并 不 存在 ， 那 么 这 个 语句 也 不 会 创建 表 或 者 分 区 。 
在 这 种 情况 下 要 使 用 合适 的 创建 策略 。 


ALTER TABLE ... ARCHIVE PARTITION 语 名 会 将 这 个 分 区 内 的 文 
件 打 成 一 个 Hadoop 压 缩 包 (HAR) 文件 。 但 是 这 样 仅 仅 可 以 降低 文件 
系统 中 的 文件 数 以 及 减轻 NameNode 的 压力 ， 而 不 会 减少 任何 的 存储 空 
间 《〈 例 如 ， 通 过 压缩 ) : 


ALTER TABLE log_messages ARCHIVE 
PARTITION(year = 2012, month = 1, day = 1); 


IE FJ UNARCHIVE Ë ARCHIVER AY LJ BEVE. XA DBR AE 
用 于 分 区 表 中 独立 的 分 区 。 





最 后 ，Hive 提 供 了 各 种 保护 。 下 面 的 语句 可 以 分 别 防止 分 区 被 删除 
和 被 查询 : 


ALTER TABLE log_messages 
PARTITION(year = 2012, month = 


1, day = 1) ENABLE NO_DROP; 


ALTER TABLE log_messages 
PARTITION(year = 2012, month = 





1, day = 1) ENABLE OFFLINE; 


使 用 ENABLE 蔡 换 DISABLE 可 以 达到 反 向 操作 的 目的 。 这 些 操 作 也 
都 不 可 用 于 非 分 区 表 。 


Sit HiveQL: 数据 操作 


本 章 将 继续 讨论 HiveQL， 也 就 是 Hive 查 询 语言 ， 并 关注 于 向 表 中 
装载 数据 和 从 表 中 抽取 数据 到 文件 系统 的 数据 操作 语言 部 分 。 


本 章 中 ， 当 我 们 讨论 通过 查询 语言 生成 目标 表 时 ， 大 量 使 用 到 了 
SELECT ... WHERE 语句 。 那 么 ， 我 们 为 什么 不 先 讲述 SELECT ... 
WHERE 语句 ， 而 直到 下 一 章 也 就 是 才 会 前 述 呢 ? 


既然 我 们 刚 讨论 了 如 何 创 建 表 ， 我 们 束 会 期 望 先 解决 随 之 而 来 的 下 
一 个 问题 ， 即 如 何 装 载 数 据 到 这 些 表 中 ， 然 后 我 们 才能 有 些 东 西 供 查询 
吧 ! 我 们 假定 用 户 已 经 理解 了 SQL 的 基础 知识 ， 因 此 这 些 语句 对 用 户 来 
E 如 果 用 户 对 此 并 不 熟悉 ， 那 么 请 到 获取 相关 更 详细 的 介 


一 口 











5.1 [Fl BERS AE 


既然 Hive 没 有 行 级 别 的 数据 插入 、 数 据 更 新 和 删除 操作 ， 那 么 往 表 
中 装载 数据 的 唯一 途径 就 是 使 用 一 种 “大 量 * 的 数据 装载 操作 。 或 者 通过 
其 他 方式 仅仅 将 文件 号 入 到 正确 的 目录 下 。 


在 第 4.4 节 “分 区 表 、 管 理 表 ”中 我 们 已 经 看 到 了 一 个 如 何 装 载 数据 到 
管理 表 中 的 例子 ， 这 里 我 们 稍微 对 其 增加 些 内 容重 新 进行 展示 。 我 们 新 
增 了 一 个 关键 字 OVERWRITE: 








LOAD DATA LOCAL INPATH '${env:HOME}/california-employees' 
OVERWRITE INTO TABLE employees 


PARTITION (country = 'US', state = 'CA'); 





如 末 分 区 目录 不 存在 的 话 ， 这 个 命令 会 先 创 建 分 区 目录 ， 然 后 再 将 
数据 找 贝 到 该 目录 下 。 


如 果 目 标 表 是 非 分 区 表 ， 那 么 语句 中 应 该 省 略 PARTITION 子 句 。 


通常 情况 下 指定 的 路 径 应 该 是 一 个 目录 ， 而 不 是 单个 独立 的 文件 。 
Hive 会 将 所 有 文件 都 拷贝 到 这 个 目录 中 。 这 使 得 用 户 将 更 方便 地 组 织 数 
据 到 多 文件 中 ， 同 时 ， 在 不 修改 Hive 脚 本 的 前 提 下 修改 文件 命名 规则 。 
不 管 怎么 样 ， 文 件 都 会 被 拷贝 到 目标 表 路 径 下 而 且 文 件 名 会 保持 不 变 。 


如 果 使 用 了 LOCAL 这 个 关键 字 ， 那 么 这 个 路 径 应 该 为 本 地 文件 系统 路 
径 。 数 据 将 会 被 拷贝 到 目标 位 置 。 如 果 省 略 掉 LOCAL 关 键 字 ， 那 么 这 
个 路 径 应 该 是 分 布 式 文件 系统 中 的 路 径 。 这 种 情况 下 ， 数 据 是 从 这 个 路 
径 转移 到 目标 位 置 的 。 




















Ww a, 
as | 
ks a HR 


LOAD DATA LOCAL... 拷 贝 本 地 数据 到 位 于 分 布 式 文件 系统 
上 的 目标 位 置 ， 而 LOAD DATA ...( 也 就 是 没有 使 用 LOCAL) 转 移 数 
据 到 目标 位 置 。 





之 所 以 会 存在 这 种 差异 ， 是 因为 用 户 在 分 布 式 文件 系统 中 可 能 并 不 
需要 重复 的 多 份 数 据 文件 找 贝 。 


同时 ， 因 为 文件 是 以 这 种 方式 移动 的 ，Hive 要 求 源 文件 和 目标 文件 
以 及 目录 应 该 在 同一 个 文件 系统 中 。 例 如 ， 用 户 不 可 以 使 用 LOAD 
ee eee eae eee eee 
HDFS 中 。 


指定 全 路 径 会 具有 更 好 的 鲁 棒 性 ， 但 也 同样 支持 相对 路 径 。 当 使 用 
本 地 模式 执行 时 ， 相 对 路 径 相 对 的 是 当 Hive CLI 启 动 时 用 户 的 工作 目 
录 。 对 于 分 布 式 或 者 伪 分 布 式 模式 ， 这 个 路 径 解读 为 相对 于 分 布 式 文件 
系统 中 用 户 的 根 目录 ， 该 目录 在 HDFS 和 MapRFS 中 默认 
为 /user/$USER。 


如 果 用 户 指定 了 OVERWRITE 关 键 字 ， 那 么 目标 文件 夹 中 之 前 存在 
的 数据 将 会 被 先 删除 挤 。 如 果 没 有 这 个 关键 字 ， 仅 仅 会 把 新 增 的 文件 增 
加 到 目标 文件 夹 中 而 不 会 删除 之 前 的 数据 。 然 而 ， 如 果 目 标 文 件 夹 中 已 
经 存在 和 装载 的 文件 同名 的 文件 ， 那 么 上 日 的 同名 文件 将 会 被 覆盖 重 写 。 
( 译 者 注 : 事实 上 如 果 没 有 使 用 OVERWRITE 关 键 字 ， 而 目标 文件 夹 下 
己 经 存在 同名 的 文件 时 ， 会 保留 之 前 的 文件 并 且 会 重 命名 新 文件 为 “之 
前 的 文件 名 _ 序 列 号 ”) 
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Hive v0.9.0 版 本 之 前 的 版 本 中 存在 如 下 bug: 如 果 没 有 使 用 
OVERWRITE 关 键 字 ， 目 标 文 件 夹 中 已 经 存在 和 转载 文件 同名 的 文 
件 的 话 ， 之 前 的 文件 会 被 覆盖 重 写 。 因 此 会 产生 数据 丢失 。 这 个 
bug 在 v0.9.0 版 本 中 已 经 修复 了 。 


如 果 目 标 表 是 分 区 表 那 么 需要 使 用 PARTITION 子 句 ， 而 且 用 户 还 
必须 为 每 个 分 区 的 键 指定 一 个 值 。 


按照 之 前 所 说 的 那个 例子 ， 数 据 现在 将 会 存放 到 如 下 这 个 文件 夹 




















hdfs://master_server/user/hive/warehouse/myab.db/employees/country=US/state=CA 


对 于 INPATH 子 句 中 使 用 的 文件 路 径 还 有 一 个 限制 ， 那 就 是 这 个 路 
径 下 不 可 以 包含 任何 文件 夹 。 


Hive 并 不 会 验证 用 户 装 载 的 数据 和 表 的 模式 是 否 匹 配 。 然 而 ，Hive 
会 验证 文件 格式 是 否 和 表 结 构 定 义 的 一 致 。 例 如 ， 如 果 表 在 创建 时 定义 
的 存储 格式 是 SEQUENCEFILE， 奢 么 转载 进去 的 文件 也 应 该 是 
sequencefile 格 式 的 才 行 。 








5.2 通过 碍 询 语 句 癌 表 中 插入 数据 


INSERT 语 句 允 许 用 户 通 过 查询 语句 向 目标 表 中 插入 数据 。 依 旧 使 
用 前 章 中 表 employees 作 为 例子 ， 这 里 有 一 个 俄 雍 俄 州 的 例子 ， 这 里 事 
先 假设 男 一 张 名 为 staged_employees 的 表 里 已 经 有 相关 数据 了 。 在 表 
staged_employees 中 我 们 使 用 不 同 的 名 字 来 表示 国家 和 州 ， 分 别称 作 cnty 
和 st， 这 样 做 的 原因 稍 后 会 进行 说 明 。 




















INSERT OVERWRITE TABLE employees 
PARTITION (country = 'US', state = 'OR') 


SELECT * FROM staged_employees se 
WHERE se.cnty = 'US' AND se.st = 'OR'; 





这 里 使 用 了 OVERWRITE 关 键 字 ， 因 此 之 前 分 区 中 的 内 容 〈 如 果 是 
非 分 区 表 ， 就 是 之 前 表 中 的 内 容 ) 将 会 被 覆盖 掉 。 


这 里 如 果 没 有 使 用 OVERWRITE 关 键 字 或 者 使 用 INTO 关 键 字 替换 
掉 它 的 话 ， 那 么 Hive 将 会 以 追加 的 方式 写 入 数据 而 不 会 覆盖 掉 之 前 已 经 
存在 的 内 容 。 这 个 功能 只 有 Hive v0.8.0 版 本 以 及 之 后 的 版 本 中 才 有 。 


这 个 例子 展示 了 这 个 功能 非常 有 用 的 一 个 币 见 的 场景 ， 即 : 数据 已 
经 存在 于 东 个 目录 下 ， 对 于 Hive 来 说 其 为 一 个 外 部 表 ， 而 现在 想 将 其 导 
入 到 最 终 的 分 区 表 中 。 如 果 用 户 想 将 源 表 数 据 导入 到 一 个 具有 不 同 记录 
格式 《〈 例 如， 有 具有 不 同 的 字段 分 割 符 ) 的 目标 表 中 的 话 ， 那 么 使 用 这 种 
方式 也 是 很 好 的 。 


然而 ， 如 果 表 staged_employees 非 常 大 ， 而 且 用 户 需 要 对 65 个 州都 
执行 这 些 语句 ， 那 么 也 就 意味 这 需要 扫描 staged_employees 表 65 次 ! 
Hive 提 供 了 另 一 种 INSERT 语 法 ， 可 以 只 扫描 一 次 输入 数据 ， 然 后 按 多 
种 方式 进行 划分 。 如 下 例子 显示 了 如 何 为 3 个 州 创 建 表 employees 分 区 : 























FROM staged_employees se 
INSERT OVERWRITE TABLE employees 
PARTITION (country = 'US', state = 'OR') 
SELECT * WHERE se.cnty = 'US' AND se.st = 'OR' 
INSERT OVERWRITE TABLE employees 


PARTITION (country = 'US', state = 'CA') 

SELECT * WHERE se.cnty = 'US' AND se.st = 'CA' 
INSERT OVERWRITE TABLE employees 

PARTITION (country = 'US', state = 'IL' 

SELECT * WHERE se.cnty = 'US' AND se.st = 'IL'; 











这 里 我 们 使 用 了 缩 排 使 得 每 组 句子 看 上 去 更 清楚 。 从 
staged_employees 表 中 读 取 的 每 条 记录 都 会 经 过 一 条 SELECT ... WHERE 
... 句 子 进行 判断 。 这 些 句子 都 是 独立 进行 判断 的 ， 这 不 是 IF ... THEN 
... ELSE ...24%4) ! 


事实 上 ， 通 过 使 用 这 个 结构 ， 源 表 中 的 茶 些 数据 可 以 被 写 入 目标 表 
的 多 个 分 区 中 或 者 不 被 号 入 任 一 个 分 区 中 。 


如 果 某 条 记录 是 满足 某 个 SELECT ... WHERE ... 语 句 的 话 ， 那 么 这 
条 记录 就 会 被 写 入 到 指定 的 表 和 分 区 中 。 简 单 明 了 地 说 ， 每 个 INSERT 
子 句 ， 只 要 有 需要 ， 都 可 以 插入 到 不 同 的 表 中 ， 而 那些 目标 表 可 以 是 分 
区 表 也 可 以 是 非 分 区 表 。 


因此 ， 输 入 的 某 些 数据 可 能 输出 到 多 个 输出 位 置 而 其 他 一 些 数据 可 
能 就 被 删除 掉 了 ! 


当然 ， 这 里 可 以 混合 使 用 INSERT OVERWRITE 句 式 和 INSERT 
INTO 人 句 式 。 


动态 分 区 插入 


前 面 所 说 的 语法 中 还 是 有 一 个 问题 ， 即 ;如 果 需 要 创建 非常 多 的 分 
区 ， 那 么 用 户 就 需要 写 非常 多 的 SQL ! 不 过 幸运 的 是 ，Hive 提 供 了 一 个 
动态 分 区 功能 ， 其 可 以 基于 查询 参数 推 师 出 需要 创建 的 分 区 名 称 。 相 比 
之 下 ， 到 目前 为 止 我 们 所 看 到 的 都 是 静态 分 区 。 


请 看 如 下 对 前 面 例子 修改 后 的 句子 : 


INSERT OVERWRITE TABLE employees 
PARTITION (country, state) 
SELECT ..., se.cnty, se.st 
FROM staged_employees se; 




















Hive 根 据 SELECT 语 句 中 最 后 2 列 来 确定 分 区 字段 country 和 state 的 
值 。 这 就 是 为 什么 在 表 staged_employees 中 我 们 使 用 了 不 同 的 命名 ， 就 
是 为 了 强调 源 表 字段 值 和 输出 分 区 值 之 间 的 关系 是 根据 位 置 而 不 是 根据 
命名 来 匹配 的 。 


假设 表 staged_employees 中 共有 100 个 国家 和 州 的 话 ， 执 行 完 上 面 这 


个 查询 后 ， 表 employees 束 将 会 有 100 个 分 区 ! 


用 户 也 可 以 混合 使 用 动态 和 静态 分 区 。 如 下 这 个 例子 中 指定 了 
country 字 段 的 值 为 静态 的 US， 而 分 区 字段 state 是 动态 值 : 


INSERT OVERWRITE TABLE employees 
PARTITION (country = 'US', state) 


SELECT ..., se.cnty, se.st 
FROM staged_employees se 
WHERE se.cnty = 'US'; 





静态 分 区 键 必须 出 现在 动态 分 区 键 之 前 。 


动态 分 区 功能 默认 情况 下 没有 开局 。 开 局 后 ， 默 认 是 以 “严格 ”模式 
执行 的 ， 在 这 种 模式 下 要 求 至 少 有 一 列 分 区 字段 是 静态 的 。 这 有 助 于 阻 
止 因 设计 错误 导致 得 询 产 生 大 量 的 分 区 。 例 如 ， 用 户 可 能 错误 地 使 用 时 
间 戳 作为 分 区 字段 ， 然 后 导致 每 秒 都 对 应 一 个 分 区 ! 而 用 户 也 许 是 期 户 
按照 天 或 者 按照 小 时 进行 划分 的 。 还 有 一 些 其 他 相关 属性 值 用 于 限制 资 
源 利 用 。 表 5-1 描 述 了 这 些 属性 。 


表 5-1 动态 分 区 属性 


L EE i = shat 分 
hive.exec.dynamic.partition eer 表示 开局 动态 分 区 功 
已 


H: 4 设置 成 nonstrict， 表 示人 允许 所 有 分 
hive.exec.dynamic.partition.mode strict 
ee e 区 都 是 动态 的 





























区 的 话 则 会 抛 出 一 个 致命 错误 信息 





每 个 mapper 或 reducer 可 以 创建 的 最 
eee 大 动态 分 区 个 数 。 如 果 茶 个 mapper 
hive.exec.max.dynamic.partitions.pernode | 100 或 reducerr 尝 试 创建 +p 这 个 ET 分 








一 个 动态 分 区 创建 语句 可 以 创建 的 
hive.exec.max.dynamic.partitions +1000 | 最 大 动态 分 区 个 数 。 如 果 超 过 这 个 
值 则 会 抛 出 一 个 致命 错误 信息 

















全 局 可 以 创建 的 最 大 文件 个 数 。 有 
hive.exec.max.created.files 100000 二 个 Hadoop 计 数 器 会 跟踪 记录 创建 
了 多 少 个 文件 ， 如 果 超 过 这 个 值 则 




















会 抛 出 一 个 致命 错误 信息 








因此 ， 作 为 例子 演示 ， 前 面 我 们 使 用 的 第 一 个 使 用 动态 分 区 的 例子 
a 这 里 我 们 不 过 在 使 用 前 设置 了 一 些 其 
望 的 属性 : 


hive> set hive.exec.dynamic.partition=true; 
hive> set hive.exec.dynamic.partition.mode=nonstrict; 
hive> set hive.exec.max.dynamic.partitions.pernode=1000; 


hive> INSERT OVERWRITE TABLE employees 
> PARTITION (country, state) 
> SELECT ..., se.cty, se.st 
> FROM staged_employees se; 











5.3 ”单个 查询 语句 中 创建 表 并 加 载 数 扼 


i 同样 可 以 在 一 个 语句 中 完成 创建 表 并 将 查询 结果 载 入 这 个 表 的 
RTE: 


CREATE TABLE ca_employees 

AS SELECT name, salary, address 
FROM employees 

WHERE se.state = 'CA'; 





这 张 表 只 含有 employee 表 中 来 和 目 加 利 福 尼 亚 州 的 雇员 的 name、 
salary 和 address3 个 字段 的 信息 。 新 表 的 模式 是 根据 SELECT 语句 来 生成 
的 。 


使 用 这 个 功能 的 币 见 情况 是 从 一 个 大 的 宽 表 中 选取 部 分 需要 的 数据 








这 个 功能 不 能 用 于 外 部 表 。 可 以 回想 下 使 用 ALTER TABLE 语 句 可 
以 为 外 部 表 “ 引 用 ”到 一 个 分 区 ， 这 里 本 号 没 有 进行 数据 “装载 "， 而 是 将 
元 数据 中 指定 一 个 指 问 数据 的 路 任 。 








5.4 导出 数据 


我 们 如 何 从 表 中 导出 数据 呢 ? 如 果 数 据 文件 恰好 是 用 户 需 要 的 格 
式 ， 那 么 只 需要 简单 地 拷贝 文件 夹 或 者 文件 束 可 以 了 : 


hadoop fs -cp source path target_path 


否则 ， 用 户 可 以 使 用 INSERT ... DIRECTORY ...， 如 下 面 例子 所 示 : 











INSERT OVERWRITE LOCAL DIRECTORY '/tmp/ca_employees' 
SELECT name, salary, address 

FROM employees 

WHERE se.state = 'CA'; 


关键 字 OVERWRITE 和 LOCAL 和 前 面 的 说 明 是 一 致 的 ， 路 径 格式 
也 和 通常 的 规则 一 致 。 一 个 或 者 多 个 文件 将 会 被 写 入 
到 /tmp/ca_employees， 具 体 个 数 取 决 于 调用 的 reducer 个 数 。 


这 里 指定 的 路 径 也 可 以 写成 全 URL 路 径 〈( 例 如 ，hdfs://master- 


server/tmp/ca_employees) 。 


不 管 在 源 表 中 数据 实际 是 怎么 存储 的 ，Hive 会 将 所 有 的 字段 序列 化 成 字 
e a 
输出 文件 。 


作为 提醒 ， 我 们 可 以 在 hive CLI 中 查看 结果 文件 内 容 : 











hive> ! ls /tmp/ca_employees; 

000000_0 

hive> ! cat /tmp/payrol11/000000_0 

John Doe100000.0201 San Antonio CircleMountain ViewCA94040 





Mary Smith80000.01 Infinity LoopCupertinoCA95014 





是 的 ， 文 件 名 是 000000_ 0。 如果 有 两 个 或 者 多 个 reducer 来 写 输 出 的 
话 ， 那 么 我 们 还 可 以 看 到 其 他 相似 命名 的 文件 (例如 ，000001_1) 。 

如 上 输出 内 容 看 上 去 字段 间 没 有 分 隔 符 ， 这 是 因为 这 里 并 没有 把 ^AA 
和 AB 显 示 出 来 。 


和 癌 表 中 插入 数据 一 样 ， 用 户 也 是 可 以 通过 如 下 方式 指定 多 个 输出 
MIF A aH: 


FROM staged_employees se 
INSERT OVERWRITE DIRECTORY '/tmp/or_employees' 
IOR 


SELECT * WHERE se.cty = 'US' and se.st = 
INSERT OVERWRITE DIRECTORY '/tmp/ca_employees' 

SELECT * WHERE se.cty = 'US' and se.st = 'CA' 
INSERT OVERWRITE DIRECTORY '/tmp/il_employees' 

SELECT * WHERE se.cty = 'US' and se.st = 'IL'; 








对 于 定制 输出 的 数据 是 有 一 些 限制 的 〈 当 然 ， 除 非 自 己 写 一 个 定制 
的 OUTPUTFORMAT， 这 在 ”中 有 讲述 ) 。 为 了 格式 化 字段 ，Hive 提 供 
了 一 些 内 置 函 数 ， 其 中 包括 那些 用 于 字符 串 格式 化 的 操作 、 例 如 转换 操 
作 ， 拼 接 输 出 操作 等 。 详 细 信 息 请 参考 第 6.1.4 节 中 的 “其 他 内 置 函数 ”。 


表 的 字段 分 隔 符 可 能 是 需要 考量 的 。 例 如 ， 如 果 其 使 用 的 是 默认 的 
AA 分 隔 符 ， 而 用 户 又 经 常 导出 数据 的 话 ， 那 么 可 能 使 用 去 号 或 者 制 表 键 
作为 分 隔 符 会 更 合适 。 


另 一 种 变通 的 方式 是 定义 一 个 “临时 ” 表 ， 这 个 表 的 存储 方式 配置 成 
期 望 的 输出 格式 〈 例 如 ， 使 用 制 表 键 作为 字段 分 隔 符 ) 。 然 后 再 从 这 个 
| 临时 表 中 查询 数据 ， 并 使 用 INSERT OVERWTITE DIRECTORY 将 查询 
结果 写 入 到 这 个 表 中 。 和 很 多 关系 型 数据 库 不 同 的 是 ，Hive 中 没有 临时 
表 的 概念 。 用 户 需 要 手动 删除 任何 创建 了 的 但 又 不 想 长 期 保留 的 表 。 














第 6 章 HiveQL: 查询 


在 了 解 了 可 以 通过 多 种 方式 来 定义 和 格式 化 表 之 后 ， 让 我 们 来 学 习 
一 下 如 何 运 行 得 询 。 当 然 ， 我 们 将 假设 你 已 经 具备 了 SQL 的 相关 知识 。 
为 了 说 明 一 些 概念 我 们 已 经 使 用 了 一 些 查 询 ， 比 如 在 第 5 章 介绍 过 的 加 
载 查 询 数据 到 其 他 表 中 的 操作 。 现 在 ， 我 们 将 完善 大 部 分 的 细节 。 一 些 
特殊 的 主题 将 会 在 以 后 的 其 他 章节 中 进行 介绍 。 


对 于 具有 SQL 使 用 经 验 的 用 户 来 说 比较 娄 悉 的 细节 我 们 将 进行 得 很 
快 ， 而 会 专注 于 其 和 HiveQL 有 何 差 异 ， 包 括 语法 和 特性 的 差异 ， 以 及 
对 性 能 的 影响 。 








6.1 SELECT... FROM 语句 
SELECT 是 SQL 中 的 射影 算 子 。FROM 子 名 标识 了 从 哪个 表 、 视 图 
或 嵌 套 查询 中 选择 记录 〈 见 第 7 章 ) 。 


对 于 一 个 给 定 的 记录 ，SELECT 指 定 了 要 保存 的 列 以 及 输出 函数 需 
要 调用 的 一 个 或 多 个 列 ( 例 如 ， 像 count(*) 这 样 的 聚合 函数 ) 。 我 们 再 
次 回想 下 之 前 说 明 过 的 分 区 employees 表 : 





CREATE TABLE employees ( 
name STRING, 
salary FLOAT, 
subordinates ARRAY<STRING>, 


deductions MAP<STRING, FLOAT>, 
address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT> 





) 
PARTITIONED BY (country STRING, state STRING); 


我 们 假定 其 和 第 3.3 节 “文本 文件 数据 编码 ?中 所 介绍 的 具有 相同 的 内 
容 ， 也 瓯 是 在 美国 伊利 诡 伊 州 〈 缩 写 为 蕊 ) 中 有 4 名 员工 。 下 面 是 对 这 
个 表 进 行 的 碍 询 语 句 以 及 其 输出 内 容 : 














hive> SELECT name, salary FROM employees; 
John Doe 100000.0 
Mary Smith 80000.0 


Todd Jones 70000.0 
Bill King 60000.0 











下 面 两 个 伍 询 是 等 价 的 。 第 2 个 版 本 使 用 了 一 个 表 别 名 e， 在 这 个 但 
询 中 不 是 很 有 用 ， 但 是 如 果 查 询 中 含有 链接 操作 (参考 第 6.4 生 “JOIN 语 
A) 的 话 ， 会 涉及 到 多 个 不 同 的 表 ， 那 就 很 有 用 了 。 








hive> SELECT name, salary FROM employees; 
hive> SELECT e.name, e.salary FROM employees e; 


当 用 户 选 择 的 列 是 集合 数据 类 型 时 ，Hive 会 使 用 JSON (Java 脚 本 对 
象 表示 法 ) 语法 应 用 于 和 输出。 首先 ， 让 我 们 选择 subordinates 列 ， 该 列 为 
一 个 数组 ， 其 值 使 用 一 个 被 括 在 [...] 内 的 以 逗号 分 隔 的 列表 进行 表示 。 
注意 ， 集 合 的 字符 串 元 素 是 加 上 引号 的 ， 而 基本 数据 类 型 STRING 的 列 
值 是 不 加 引号 的 。 





hive> SELECT name, subordinates FROM employees; 
John Doe ["Mary Smith","Todd Jones"] 


Mary Smith ["Bill King"] 
Todd Jones 
Bill King 


deductions 列 是 一 个 MAP， 其 使 用 JSON 格 式 来 表达 map， 即 使 用 一 
个 被 括 在 {...} 内 的 以 逗号 分 隔 的 键 : 值 对 列表 进行 表示 : 








hive> SELECT name, deductions FROM employees; 

John Doe {"Federal Taxes":0.2,"State Taxes":0.05, "Insurance":0.1} 
Mary Smith {"Federal Taxes":0.2,"State Taxes":0.05, "Insurance":0.1} 
Todd Jones {"Federal Taxes":0.15, "State Taxes":0.03, "Insurance":0.1} 
Bill King {"Federal Taxes":0.15,"State Taxes":0.03,"Insurance":0.1} 





最 后 ，address 列 是 一 个 STRUCT， 其 也 是 使 用 JSON map 格 式 进行 表 
示 的 : 


hive> SELECT name, address FROM employees; 

John Doe {"street":"1 Michigan Ave.","city":"Chicago","state":"IL", "zip":60600} 

Mary Smith {"street":"100 Ontario St.","city":"Chicago","state":"IL", "zip":60601} 

Todd Jones {"street":"200 Chicago Ave.","city":"Oak Park", "state":"IL","zip":60700} 
Bill King {"street":"300 Obscure Dr.","city":"Obscuria", "state": "IL", "zip":60100} 





接 下 来 ， 让 我 们 看 看 如 何 引用 集合 数据 类 型 中 的 元 素 。 


首先 ， 数 组 索引 是 基于 0 的 ， 这 个 和 在 Java 中 是 一 样 的 。 这 里 是 一 个 选 
择 subordinates 数 组 中 的 第 1 个 元 素 的 查询 : 


hive> SELECT name, subordinates[0] FROM employees; 
John Doe Mary Smith 

Mary Smith Bill King 

Todd Jones NULL 

Bill King NULL 


注意 ， 引 用 一 个 不 存在 的 元 素 将 会 返回 NULL。 同 时 ， 提 取出 的 
STRING 数 据 类 型 的 值 将 不 再 加 引号 ! 


为 了 引用 一 个 MAP 元 素 ， 用 户 还 可 以 使 用 ARRAY[.….] 语 法 ， 但 是 
使 用 的 是 键 值 而 不 是 整数 索引 : 


hive> SELECT name, deductions["State Taxes"] FROM employees; 
John Doe 0.05 





Mary Smith 0.05 
Todd Jones 0.03 
Bill King 0.03 





最 后 ， 为 了 引用 STRUCT 中 的 一 个 元 素 ， 用 户 可 以 使 用 “点 ?符号 ， 类 似 
于 前 面 提 到 的 “ 表 的 别名 . 列 名 ”这 样 的 用 法 : 





hive> SELECT name, address.city FROM employees; 
John Doe Chicago 


Mary Smith Chicago 
Todd Jones Oak Park 
Bill King Obscuria 





WHERE 子 句 中 同样 可 以 使 用 这 些 引 用 方式 ， 这 个 我 们 将 在 第 6.2 
节 “WHERE 语 名 ”中 进行 讨论 。 


6.1.1 使 用 正则 表达 式 来 指定 列 


我 们 甚至 可 以 使 用 正则 表达 式 来 选择 我 们 想 要 的 列 。 下 面 的 查询 将 
会 从 表 stocks 中 选择 symbol 列 和 所 有 列 名 以 price 作 为 前 级 的 列 站 


hive> SELECT symbol, ‘price.* FROM stocks; 
9 197.88 194.0 194.12 194.12 
192.63 196.0 190.85 195.46 195.46 
196.73 198.37 191.57 192.05 192.05 


195.17 200.2 194.42 199.23 199.23 
195.91 196.32 193.38 195.86 195.86 





我 们 将 在 第 6.2.3 节 “LIKE 和 RLIKE” 中 继续 讨论 在 Hive 中 如 何 使 用 正 
则 表达 式 。 


6.1.2 ”使 用 列 值 进行 计算 


用 户 不 但 可 以 选择 表 中 的 列 ， 还 可 以 使 用 函数 调用 和 算术 表达 式 来 
操作 列 值 。 


例如 ， 我 们 可 以 得 询 得 到 转换 为 大 写 的 雇员 姓名 、 雇 员 对 应 的 薪 
水 、 需 要 缴纳 的 联邦 税收 比例 以 及 扣除 税收 后 再 进行 取 整 所 得 的 税 后 薪 
资 。 我 们 甚至 可 以 通过 调用 内 置 函 数 map_values 提 取出 deductions 字 段 
oo 的 所 有 元 素 ， 然 后 使 用 内 置 的 sum 函 数 对 map 中 所 有 元 素 进 行 
求 和 运算 。 


以 下 这 个 查询 因为 太 长 ， 所 以 我 们 将 它 划 分 成 两 行 显示 了 。 注 意 下 
第 2 行 Hive 所 使 用 的 提示 符 ， 那 是 一 个 缩 进 了 的 大 于 符号 (>) : 








hive> SELECT upper(name), salary, deductions["Federal Taxes"], 
> round(salary * (1 - deductions["Federal Taxes"])) FROM employees; 


JOHN DOE 100000.0 0.2 
MARY SMITH 80000.0 0.2 
TODD JONES 70000.0 0.1 
BILL KING 60000.0 0.1 


80000 
64000 

5 59500 
.15 51000 





让 我 们 先 来 讨论 一 下 算术 运算 符 ， 然 后 再 讨论 如 何在 表达 式 中 使 用 
这 些 算术 运算 符 。 


6.1.3 ”算术 运算 符 


Hive 中 文 持 所 有 和 典型 的 算术 运算 待 。 表 6-1 描 述 了 有 具体 的 细节 。 
表 6-1 算术 运算 符 











描述 


A |A 和 B 相 加 








A | |A 和 B 相 乘 


A 除 以 B。 如 果 能 整除 ， 那 么 返回 商 数 〈 译 者 注 : 商 数 是 一 个 整数 ， 表 示 在 
不 考虑 有 余数 的 情况 下 ， 除 数 可 以 除 被 除数 的 次 数 ) 














A 除 以 B 的 余数 





A 和 B 按 位 取 与 


We 请 
m 泣 





个 | 数 
| 值 | 人 和 B 按 位 取 或 
B 


AA 和 | 数 T : 
A 和 B 按 位 取 亦 或 
A 按 位 取 反 


算术 运算 符 接受 任意 的 数值 类 型 。 不 过 ， 如 果 数 据 类 型 不 同 ， 那 么 
两 种 类 型 中 值 范围 较 小 的 那个 数据 类 型 将 转换 为 其 他 范围 更 广 的 数据 类 
型 。 (范围 更 广 在 某 种 意义 上 就 是 指 一 个 类 型 具有 更 多 的 字 节 从 而 可 以 
容纳 更 大 范围 的 值 。) 例如 ， 对 于 INT 和 BIGINT 运 算 ，INT 会 将 类 型 转 
换 提 升 为 BIGINT。 对 于 INT 和 FLOAT 运 算 ，INT 将 提升 为 FLOAT。 可 以 
注意 到 我 们 的 查询 语句 中 包含 有 (1 - deductions[...]) 这 个 运算 。 因 为 字段 
deductions 是 FLOAT 类 型 的 ， 因 此 数字 1 会 提升 为 FLOAT 类 型 。 


当 进 行 算术 运算 时 ， 用 户 需 要 注音 数据 溢出 或 数据 下 洲 问 题 。Hive 
遵循 的 是 底层 Java 中 数据 类 型 的 规则 ， 因 此 当 海 出 或 下 洲 及 生 时 计算 结 
果 不 会 自动 转换 为 更 广泛 的 数据 类 型 。 乘 法 和 除法 最 有 可 能 会 引发 这 个 


问题 。 


用 户 需 要 注意 所 使 用 的 数值 数据 的 数值 范围 ， 并 确认 实际 数据 是 否 
接近 表 模 式 中 定义 的 数据 类 型 所 规定 的 数值 范围 上 限 或 者 下 限 ， 还 需要 
确认 人 们 可 能 对 这 些 数据 进行 什么 类 型 的 计算 。 


如 果 用 户 比较 担心 溢出 和 下 溢 ， 那 么 可 以 考虑 在 表 模 式 中 定义 使 用 
ae 的 数据 类 型 。 不 过 这 样 做 的 缺点 是 每 个 数据 值 会 占用 更 多 额外 
Fo 


HP ty EH FEE A Peak SCRE RA EEA SS yE 
细 信 息 请 参考 随后 的 表 6-2 和 第 6.8 节 “类 型 转换 ”。 


有 时 使 用 函数 将 数据 值 按 比 例 从 一 个 范围 缩放 到 另 一 个 范围 也 是 很 
有 用 的 ， 例 如 按照 10 次 方 早 进行 除法 运算 或 取 log 值 〈 指 数值 ) ， 等 
































等 。 这 种 数据 缩放 也 适用 于 茶 些 机 璐 学习 计算 中 ， 用 以 提高 算法 的 准确 
性 和 数值 稳定 性 。 


6.1.4 使 用 函数 


我 们 前 面 的 那个 示例 中 还 使 用 到 了 一 个 内 置 数学 函数 round()， 这 个 
函数 会 返回 一 个 DOUBLE 类 型 的 最 近 整 数 。 


1. 数学 函数 


K 6-2 中 描述 了 Hive 内 置 数学 函数 ， 这 是 Hive v0.8.0 版 本 中 所 提供 
的 ， 而 且 是 用 于 处 理 单个 列 的 数据 的 。 


表 6-2 ”数学 函 
返回 DOUBLE 型 d 的 BIGINT 类 型 的 近似 值 
返回 DOUBLE 型 d 的 保留 np 位 小 数 的 DOUBLE 型 的 近似 值 
































1(DOUBLE d) 
BIGINT cesling( DOUBLE d 是 DOUBLE 类 型 的 ， 返 回 >=d 的 最 小 BIGINT 型 值 


rand() x wn wy, 
DOUBLE | rand(1nt 一 个 DOUBLE 型 随机 数 ， 整 数 seed 是 随机 因子 
DOUBLE 返回 e 的 d 早 次 方 ， 返 回 的 是 个 DOUBLE 型 值 
DOUBLE 以 自然 数 为 底 d 的 对 数 ， 返 回 DOUBLE 型 值 


DOUBLE | 20919(pouste d) | 以 10 为 底 d 的 对 数 ， 返 回 DOUBLE 型 值 























DOUBLE | 1092(D0UBLE d) 
1og(DOUBLE 
DOUBLE | base, 
DOUBLE d) 


pow(DOUBLE 

d, DOUBLE 
DOUBLE Bence DOUS E d, 

DOUBLE p) 
DOUBLE | sqrt(DouBLE d) 
a 
fas 
STRING | hex(STRING str) 


oe 
STRING | unhex(STRING i) 


conv(BIGINT 

num, 
STRING INT from_base, 

INT to_base) 


conv(STRING 
num, 
STRING INT from_base, 
INT to_base) 
DOUBLE |abs(DOUBLE d) 
pmod(INT i1, 


以 2 为 底 d 的 对 数 ， 返 回 DOUBLE 型 值 








以 base 为 底 d 的 对 数 ， 返 回 DOUBLE 型 值 ,其 中 base 和 d 都 是 


DOUBLE 型 的 














计算 d 的 p 次 震 ， 返 回 DOUBLE 值 ,其 中 d 和 p 都 是 DOUBLE 型 


的 





计算 d 的 平方 根 ， 其 中 qd 是 DOUBLE 型 的 


计算 二 进 制 值 的 STRING 类 型 值 ， 





RAIKI STRING% 

















其 中 i 是 BIGINT 类 型 的 


， 其 中 i 是 BIGINT 类 型 的 





\ 达 的 值 str 的 STRING 类 型 值 


计算 二 进 制 表达 的 值 b 的 STRING 类 型 值 (Hive 0.12.0 版 本 


新 增 ) 





hex(STRING st 的 逆 方 法 


将 BIGINT 类 型 的 num 从 from_base 进 制 转换 成 to_base 进 人 








并 返回 STRING 类 型 结果 


将 STRING 类 型 的 hum 从 from_base 进 制 转换 成 to_base 进 盾 





并 返回 STRING 类 型 结果 





计算 DOUBLE 型 值 d 的 绝对 值 ， 返 



































回 结果 也 是 DOUBLE 型 的 


INT 值 11 对 INT 值 2 取 模 ， 结 果 也 是 INT 型 的 








DOUBLE | Bouse a2) “| DOUBLE 值 41 对 DOUBLE 值 42 取 模 ， 结 果 也 是 DOUBLE 型 
的 


在 弧度 度量 中 ， 返 回 DOUBLE 型 值 d 的 正弦 值 ， 
DOUBLE | sin(DouBLE d) DOUBLE 型 的 


在 弧度 度量 中 ， 返 回 DOUBLE 型 值 d 的 反正 弦 值 ， 结 果 是 
asin(DOUBLE d) DOUBILE 型 的 H 


j ! jA ot FALE 
DOUBLE | cos(DOUBLE d) DOUBLE 型 值 d 的 余弦 值 ， 结果 是 


在 弧度 度量 返回 DOUBLE 型 值 d 的 反 余弦 值 ， 结 果 是 
acos(DOUBLE d) DOUBLE! ff E} 


j j 4 + E E 
DOUBLE | tan(pouste d) DOUBLE 型 值 d 的 正切 值 ， 结 







































































在 弧度 度量 返回 DOUBLE 型 值 d 的 反正 切 值 ， 结 果 是 
pon d) DOUBLEZ! ff H 


pouar [grens 将 DOUBLE 型 弧度 值 d 转 换 成 角度 值 ， 结 果 是 DOUBLE 型 的 

















oun | 将 DOUBLE 型 角度 值 d 转 换 成 弧度 值 ， 结 果 是 DOUBLE 型 的 


positive(INT i) | 返回 INT 型 值 ( 其 等 价 的 有 效 
DOUBLE |}95 tive U8 | 返回 DOUBLE 型 值 d( 其 等 价 的 有 效 表 达 式 是 +d) 
negative(INT i) | 返回 INT 型 值 的 负数 (其 等 价 的 有 效 表达 式 是 -i) 


oun sme 返回 DOUBLE 型 值 d 的 负数 (其 等 价 的 有 效 表达 式 是 -d) 















































FLOAT |sign(pouets d) | 如 果 DOUBLE 型 值 d 是 正 数 的 话 ， 则 返回 FLOAT 值 1.0; 如 
果 d 是 负数 的 话 ， 则 返回 -1.0; 否则 返回 0.0 


DOUBLE jo eame 也 就 是 超越 数 ， 的 DOUBLE 型 值 


























DOUBLE ea 也 就 是 圆周 率 ， 的 DOUBLE 型 值 


需要 注意 的 是 函数 floor、round 和 ceil (“向 上 取 整 ”) 输入 的 是 
DOUBLE 类 型 的 值 ， 而 返回 值 是 BIGINT 类 型 的 ， 也 就 是 将 浮 点 型 数 转 
换 成 整 型 了 。 在 进行 数据 类 型 转换 时 ， 这 些 函 数 是 首选 的 处 理 方 式 ， 而 
不 是 使 用 前 面 我 们 提 到 过 的 cast 类 型 转换 操作 符 。 


同样 地 ， 也 存在 基于 不 同 的 底 《〈 例 如 十 六 进 制 ) 将 整数 转换 为 字符 
串 的 函数 。 
2， 聚 合 函数 

聚合 函数 是 一 类 比较 特殊 的 函数 ， 其 可 以 对 多 行进 行 一 些 计 算 ， 然 
后 得 到 一 个 结果 值 。 更 确切 地 说 ， 这 是 用 户 自 定义 聚合 函数 ， 在 第 13.4 
节 “ 聚 合 函 数 ”* 中 会 有 详细 的 介绍 。 这 类 函数 中 最 有 名 的 两 个 例子 就 是 
count 和 avg。 了 函数 count 用 于 计算 有 多 少 行 数据 (或 者 某 列 有 多 少 值 〉， 
而 函数 avg 可 以 返回 指定 列 的 平均 值 。 


这 里 是 一 个 查询 示例 表 employees 中 有 多 少 雇 员 ， 以 及 计算 这 些 雇 
员 平 均 薪 水 的 HiveQL 语 句 : 


hive> SELECT count(*), avg(salary) FROM employees; 
4 77500.0 


当 我 们 在 第 6.3 节 “GROUP BY 语句 ”中 讨论 GROUP BY 时 将 会 看 到 其 
他 的 例子 。 


表 6-3 列举 了 Hive 的 内 置 聚 合 函 数 。 


表 6-3 ”聚合 函数 














返回 值 类 型 样式 


HE 

















计算 总 行 数 ， 包 括 含 有 NULL 值 的 行 





计算 提供 的 expr 表 达 式 的 值 非 NULL 
的 行 数 


count (DISTINCT 计算 提供 的 expr 表 达 式 的 值 排 重 后 非 
expr[, expr_.]) NULL 的 行 数 


计算 排 重 后 值 的 和 
计算 排 重 后 的 值 的 平均 值 









































计算 指定 行 的 最 大 值 
返回 集合 col 中 的 一 组 数值 的 方差 
返回 集合 col 中 的 一 组 数值 的 样 


返回 一 组 数值 的 标准 侦 差 
pem | 回 一 组 数值 的 标准 样本 偏差 


covar_pop(col1, col2) jB 回 一 组 数值 的 协 方差 












































DOUBLE covar_samp(coli, col2) 





回 一 组 数值 的 样本 协 方差 


| int_expr 在 p〈 范 围 是 : [0,1]) 处 的 对 
oe 应 的 百分比 ， 其 中 p 是 一 个 DOUBLE 
型 数值 


= 


























percentile(BIGINT int_expr7Ep ( 苑 围 是 : [0， 1]) 处 的 对 
ARRAY<DOUBLE> 人 应 的 百分比 ， 其 中 p 是 一 个 DOUBLE 
站 型 数组 








col 在 p《〈 范 围 是 : [0,1]) 处 的 对 应 的 
percentile_approx 百分比 ， 其 中 p 是 一 个 DOUBLE 型 数 
(DOUBLE col,p[ NB) | 值 ，NB 是 用 于 估计 的 直方 图 中 的 仓 
库 数量 默认 是 10000) 

















colp (范围 是 ，[0,1]〉 处 的 对 应 的 
percentile approx “| 百分比 ， 其 中 p 是 一 个 DOUBLE 型 数 
ARRAY<DOUBLE> ( col, 2 5 
(DIL, p2].)[, NBI) 日 ，NB 是 用 于 估计 的 直方 图 中 的 仓 


库 数量 默认 是 10000) 





























ARRAY<STRUCT{'x T histogram_numeric(col, j 加 NB 数量 的 直方 图 仓 库 数 组 ， 返 
,y'}> | me) 相 结 采 中 的 值 x 是 中 心 ， 值 y 是 RES 


ARRAY 返回 集合 col 元 素 排 重 后 的 数组 


通常 ， 可 以 通过 设置 属性 hive.map.aggr 值 为 true 来 提高 聚合 的 性 
能 ， 如 下 所 示 : 


hive> SET hive.map.aggr=true; 
hive> SELECT count(*), avg(salary) FROM employees; 

正如 这 个 例子 所 展示 的 ， 这 个 设置 会 触发 在 map 阶段 进行 的 “项 
级 ”聚合 过 程 。( 非 顶级 的 聚合 过 程 将 会 在 执行 一 个 GROUP BY 后 进 





























行 。) 不 过 ， 这 个 设置 将 需要 更 多 的 内 存 。 


如 表 6-3 所 示 ， 多 个 函数 都 可 以 接受 DISTINCT ... 表达 式 。 例 如 ， 
我 们 可 以 通过 这 种 方式 计算 排 重 后 的 孤僻 交易 码 个 数 : 


hive> SELECT count(DISTINCT symbol) FROM stocks; 
0 
“SS ais AE 

| 警告 


等 一 下 ， 结 果 为 0? 当 使 用 count(DISTINCT coD 而 同时 col 是 分 
X UR FF EIR bug. PF AAT IA rt MALAI UE EC A TR WE DY. 
该 是 743， 至 少 在 我 们 使 用 的 2010 年 初 infochimps.org 提 供 的 数据 集 
中 是 这 个 数 。 


注意 ， 在 Hive wiki 中 ， 目 前 不 允许 在 一 个 查询 语句 中 使 用 多 于 一 个 
AYER (DISTINCT ...) 表 达 式 。 例 如 ， 下 面 这 个 查询 语句 按说 是 不 允许 
的 ， 但 是 实际 上 是 可 以 执行 的 : 














hive> SELECT count(DISTINCT ymd), count(DISTINCT volume) FROM stocks; 
12110 26144 


因此 ， 从 查询 结果 中 可 以 看 到 有 12 110 个 交易 日 的 数据 ， 即 超过 40 
年 的 价值 。 


3. 表 生 成 函数 


与 聚合 函数 “相反 的 ”一 类 函数 就 是 所 谓 的 表 生 成 函数 ， 其 可 以 将 单 
列 扩展 成 多 列 或 者 多 行 。 我 们 将 在 第 13.5 节 “ 表 生 成 函数 ”中 更 全 面 地 讨 
论 这 类 函数 ， 这 里 我 们 将 简要 地 讨论 下 ， 然 后 列举 出 Hive 目 前 所 提供 的 
一 些 内 置 表 生 成 函数 。 


下 面 我 们 通过 一 个 例子 来 进行 讲解 。 如 下 的 这 个 查询 语句 将 
employees 表 中 每 行 记录 中 的 subordinates 字 上 段 内 容 转 换 成 0 个 或 者 多 个 新 
的 记录 行 。 如 果 某 行 雇员 记录 subordinates 字 段 内 容 为 空 的 话 ， 那 么 将 不 
如 末 不 为 空 的 话 ， 那 么 这 个 数组 的 每 个 元 素 都 将 产生 























hive> SELECT explode(subordinates) AS sub FROM employees; 
Mary Smith 
Todd Jones 
Bill King 


上 面 的 查询 语句 中 ， 我 们 使 用 AS sub 子 句 定 义 了 列 别 名 sub。 当 使 
用 表 生 成 函数 时 ，Hive 要 求 使 用 列 别名 。 用 户 可 能 需要 了 解 其 他 许多 的 
特性 细节 才能 正确 地 使 用 这 些 函 数 。 第 13.5 节 “ 表 生 成 函数 ”中 ， 我 们 将 
进行 详细 的 讨论 。 


表 6-4 列 举 了 Hive 内 置 的 表 生 成 函数 。 


下 面 是 一 个 使 用 函数 parse_url_tuple 的 例子 ， 其 中 我 们 假设 存在 一 
oe 而 且 表 中 含有 一 个 名 为 ur 的 列 ， 列 中 存储 有 很 多 
网 址 : 


SELECT parse_url_tuple(url, 'HOST', 'PATH', 'QUERY') as (host, path, query) 
FROM url_table; 





表 6-4 ZEAE KPH BL 























返 每 行 都 对 应 输入 的 array 数 组 中 的 一 个 
TUR 





explode(ARRAY array) 








返回 0 到 多 行 结果 ， 每 行 对 应 每 个 map 键 - 值 对 ， 其 中 一 个 
explode(MAP map) 字段 是 map 的 键 ， 另 一 个 字段 对 应 map 的 值 〈Hive 0.8.0 版 
本 新 增 ) 























epee ae 对 于 a 中 的 每 个 元 素 ，explode() 会 生成 一 行 记 录 包 含 这 个 
a 元 素 





inline (ARRAY<STRUCT ee ee (Hive 0.10.0 版 本 新 
F 


[, STRUCT] >) 





| 本 函数 可 以 接受 多 个 标签 名 称 ， 对 输入 的 JSON 字 符 串 进 
TUPLE ne 行 处 理 ， 这 个 get_json_object 这 个 UDF 类 似 ， 不 过 更 高 


~ Pn) 


















































效 ， 其 通过 一 次 调用 就 可 以 获得 多 个 键 值 








eee 从 UREL 中 解析 出 N 个 部 分 信息 。 其 输入 参数 是 :， URL, MU 

Bata “| 及 多 个 要 抽取 的 部 分 的 名 称 。 所 有 输入 的 参数 的 类 型 都 是 

bore none ee STRING。 部 分 名 称 是 大 小 写 敏感 的 ， 而 且 不 应 该 包含 有 

partnameN) 其 中 N by 

空格 : HOST, PATH, QUERY, REF,PROTOCOL, 
AUTHORITY, FILE, USERINFO,QUERY:<KEY_ NAME> 

















stack(INT n, coli, 巴 M 列 转换 成 N 行 ， 每 行 有 MVN 个 字段 。 其 中 mn 必 须 是 个 常 


wy COlM) K 








根据 下 面 的 表 6-5， 用 户 可 以 比较 下 函数 parse_url_tuple 和 函数 
parse_url 的 区 别 。 


4. 其 他 内 置 函数 

表 6-5 中 描述 了 Hive 中 其 余 的 内 置 函 数 ， 这 些 函 数 用 于 处 理 字 符 
串 、Map、 数 组 、JSON 和 时 间 惟 ， 包 含 或 者 没有 包含 最 近 引 入 的 
TIMESTAMP 数 据 类 型 〈 参 考 第 3.1 节 “基本 数据 类 型 ”中 的 内 容 ) 。 


表 6-5 他 内 置 函 数 









































返回 字符 串 s 中 首 个 ASCII 字 符 的 
整数 值 





ascii(STRING s) 


将 二 进 制 值 bin 转 换 成 基于 64 位 的 
字符 串 (Hive 0.12.0 版 本 新 增 ) 











base64(BINARY bin) 











binary(STRING s) 将 输入 的 值 转换 成 二 进 制 值 
binary(BINARY b) (Hive 0.12.0 版 本 新 增 ) 

















将 expr 转 换 成 type 类 型 的 。 例 如 
SK F pap E 2 Y te He FF] | cast(<expr> as cast(‘1' as BIGINT) 将 会 将 字符 
返回 类 型 就 是 type 定 义 的 类 型 A 串 呈 转换 成 BIGINT 数 值 关 型 。 如 

果 转 换 过 程 失 败 ， 则 返回 NULL 








STRING 


STRING 
STRING 


STRING 


ARRAY<STRUCT 
<STRING,DOUBLE>> 


STRING 


BINARY 


concat(BINARY s1, 
BINARY s2, ...) 


concat(STRING s1, 
STRING s2, =) 


concat_ws(STRING 
separator, STRING 
s1,STRING s2,...) 


concat_ws (BINARY 
separator, BINARY 
s1,STRING s2,..) 


context_ngrams(array 
<array<string>>, array 
<string>,int K, int 
pf) 


decode(BINARY bin, 
STRING charset) 


encode (STRING src, 
STRING charset) 


find_in_set(STRING 
S, STRING commaSepa- 
ratedString) 














i STs Fe Pe Ee — 
守 串 (Hive 0.12.0 版 本 新 增 ) 











人 s2 等 拼接 成 一 人 rn 
> (lM, concat(‘ab’,’cd’ Ha 





和 concat 类 似 ， 不 过 是 使 用 指定 的 
分 隔 符 进 行 拼接 的 








和 concat 类 似 ， 不 过 是 使 用 指定 的 
分 隔 符 进行 拼接 的 (Hive 0.12.0 版 
曾 ) 


























和 ngrams 类 似 ， 但 是 从 每 个 外 层 
的 第 二 个 单词 数组 来 查找 前 K 





























PAT A 
ae "US_ASCIT 'ISO-8859-1', 'UTF- 
8', 'UTF-16BE', 'UTF-16LE', 'UTF- 
16"). 如 果 任 一 输入 参数 为 NULL， 
则 结果 为 NULL(Hive 0.12.0 版 本 新 
增 ) 


























使 用 指定 的 字符 集 charset 将 字符 串 
src 编 码 成 二 进 制 值 ( 文 持 的 字符 集 
#4 :'US_ASCII’, 'ISO-8859-1', 'UTF- 
8', 'UTF-16BE', 'UTF-16LE', 'UTF- 
16"). 如 果 任 一 输入 参数 为 NULL， 
则 结果 为 NULL(Hive 0.12.0 版 本 新 
增 ) 











返回 在 以 逗号 分 隔 的 字符 串 中 s 出 
现 的 位 置 ， 如 果 没 有 找到 则 返回 
NULL 














STRING format_number(NUMBER 


x, INT d) 


get_json_object 
STRING (STRING json_string, 

STRING path) 
BOOLEAN i 

in_file(STRING s, 
BOOLEAN STRING filename) 


instr (STRING str, 
STRING substr) 


locate(STRING substr, 
STRING str [,INT 
pos]) 


STRING lower (STRING s) 


STRING lcase(STRING s) 


pe 
se : 
me 


lpad(STRING s, INT 
STRING len, STRING pad) 


WEBEL x FG PRG HH HP BR 
字符 串 ， 并 保留 d 位 小 数 。 如 果 d 
为 0， 那 么 输出 值 就 没有 小 数 点 后 
面 的 值 

















从 给 定 路 径 上 的 JSON 字 符 串 中 抽 
取出 JSON 对 象 ， 并 返回 这 个 对 象 
的 JSOM 字 符 串 形式 。 如 果 输 入 的 
JSON 字 符 串 是 非法 的 ， 则 返回 
NULL 





例如 ，test in (vall, val2, ...), 其 表 
示 如 果 test 值 等 于 后 面 列 表 中 的 任 
一 值 的 话 ， 则 返回 true 














如 果 文 件 名 为 filename 的 文件 中 有 
完整 一 行 数据 和 字符 串 s 完 全 匹配 
的 话 ， 则 返回 true 











查找 字符 串 str 中 子 字 符 串 substr 第 
一 次 出 现 的 位 置 


计算 字符 串 s 的 长 度 








查找 在 字符 串 str 中 的 pos 位 置 后 字 
符 串 substr 第 一 次 出 现 的 位 置 

















将 字符 串 中 所 有 字母 转换 成 小 写 
字母 。 例 如 ，upper(‘hIvE’) 的 结 
ze ‘hive’ 





和 ]ower() 一 样 








从 左边 开始 对 字符 串 s 使 用 字符 串 
pad 进 行 填充 ， 最 终 达到 len 长 度 为 
止 。 如 果 字 符 串 s 本 身长 度 比 len 大 
ee 那么 多 余 的 部 分 会 被 去 除 























STRING 


ARRAY<STRUCT 
<STRING,DOUBLE>> 


STRING 


STRING 
STRING 


STRING 


STRING a 


STRING 


ltrim(STRING s) 


ngrams(ARRAY< 
ARRAY<string>>, 
INT N, INT K, INT pf) 


parse_ur1l(STRING 
url, STRING partname 
[, STRING key]) 


printf (STRING 


format, Obj . args) 


regexp_extract (STRING 
subject, STRING 
regex_pattern, 

STRING index) 


regexp_replace 
(STRING s, STRING 
regex, 

STRING replacement) 


repeat(STRING s, INT 


reverse(STRING s) 





将 字符 串 s 前 面 出 现 的 空格 全 部 去 
除 掉 。 例 如 trim(' hive ") 的 结果 
是 ‘hive? 




















估算 文件 中 前 K 个 字 尾 。pf 是 精度 





从 URL 中 抽取 指定 部 分 的 内 aun ? 
参数 url 表 示 一 个 URL 字 符 串 ， 参 
数 partname 表 示 要 抽取 的 部 分 名 
称 ， 其 是 大 小 写 敏 感 的 ， 可 选 的 
值 有 : HOST, PATH, QUERY， 
REF, PROTOCOL, AUTHORITY, 
FILE, USERINFO, QUERY: 
<key>. 如 果 partname 是 QUERY 
的 话 ， 那 么 还 需要 指定 第 三 个 参 
Whey. T 可 以 和 表 6-4 中 的 
parse_url_tuple 对 比 下 






































按照 printf 风 格格 式 化 输 ae 
ope (Hive 0.9.0 版 本 新 增 ) 








抽取 字 
式 regex_pattern 的 第 index 个 
子 字符 串 


符 串 subject 中 符合 正则 表达 
部 分 的 





按照 Java 正 则 表达 式 regex 将 字符 
串 s 中 符合 条 件 的 部 分 蔡 换 成 
replacement 所 指定 的 字符 串 a。 如 
果 replacement 部 分 是 空 的 话 ， 那 么 
符合 正则 的 部 门 束 会 被 去 除 挥 。 
例如 regexp_replace('hive', '[ie]', 'z') 
的 结果 是 ‘hzvz* 

















重复 输出 n 次 字符 串 s 





STRING 


STRING 


ARRAY<ARRAY<STRING>> 


STRING 


ARRAY<STRING> 


MAP<STRING , STRING> 


STRING 


rpad(STRING s, INT 
len, STRING pad) 


rtrim(STRING s) 


sentences(STRING 
s,STRING lang, STRING 
locale) 


size(MAP<K.V>) 


size(ARRAY<T>) 


space(INT n) 


split(STRING s, 
STRING pattern) 


str_to_map 
(STRING s, STRING 
delim1, 

STRING delim2) 


substr (STRING 

s, STRING 

start_index) substring 

(STRING s, STRING 
start_index) 


substr (BINARY 
s, STRING 
start_index) substring 


从 右边 开始 对 字符 串 s 使 用 字符 串 
pad 进 行 填充 ， 最 终 达 到 len 长 度 为 
止 。 如 果 字 符 串 s 本 身长 度 比 len 大 
ie 那么 多 余 的 部 分 会 被 去 除 


























将 字符 串 s 后 面 出 现 的 空格 全 部 去 
除 掉 。 例 如 trim(' hive ) 的 结果 是 : 


hive’ 








将 输入 字符 串 s 转 换 成 句子 数组 ， 
每 个 句子 又 由 一 个 单词 数组 构 
成 。 人 参数 lang 和 locale 是 可 选 的 ， 
如 果 没 有 使 用 的 ， 则 使 用 默认 的 
本 地 化 信息 














返回 MAP 中 元 素 的 个 数 


回 数组 ARRAY 的 元 素 个 数 








按照 正则 表达 式 pattern 分 割 字 符 串 
s， 并 将 分 割 后 的 部 分 以 字符 串 数 
组 的 方式 返回 

















将 字符 串 s 按 照 指定 分 隔 符 转 换 成 
Map， 第 一 个 参数 是 输入 的 字符 
串 ， 第 二 个 参数 是 键 值 对 之 间 的 
分 隔 符 ， 第 三 个 分 隔 符 是 键 和 值 
之 间 的 分 隔 符 











对 于 字符 串 s， 从 start 位 置 开始 截 
取 length 长 度 的 字符 串 , 作 为 子 字符 
和 。 例 如 substr(‘abcdefgh’,3,2) 的 结 


果 是 ‘cd’ 























对 于 二 进 制 字 节 值 s， 从 start 位 置 
开始 截取 length 长 度 的 字符 串 ,作为 





STRING 


STRING 


STRING 
BINARY 


STRING 
STRING 


BIGINT 


BIGINT 
BIGINT 


(BINARY s,STRING 
start_index) 


translate(STRING 
input, 

STRING from, STRING 
to) 


trim(STRING A) 


unbase64(STRING str) 


upper(STRING A) 
ucase(STRING A) 


from_unixtime 
(BIGINT unixtime[, 
STRING format] ) 


unix_timestamp() 


unix_timestamp 
(STRING date) 


unix_timestamp 
(STRING date, STRING 
pattern) 


TYE (Hive 0.12.0 新 增 ) 








将 字符 串 s 前 后 出 现 的 空格 全 部 去 
除 掉 。 例 如 trim(' hive ) 的 结果 


Fe ‘hive’ 





将 基于 64 位 的 字符 串 str 转 换 成 二 
进 制 值 (Hive 0.12.0 版 本 新 增 ) 

















将 字符 串 中 所 有 字母 转换 成 大 写 
字母 。 例 如 ，upper(‘hIvE’”) 的 结果 
ze ‘HIVE’ 


将 时 间 戳 秒 数 转 换 成 UTC 时 间 ， 
并 用 字符 串 表 示 , 可 以 通过 format 规 
定 的 时 间 格 式 ， 指 定 输 出 的 时 间 


格式 











on oa 下 的 当前 时 间 


输入 的 时 间 字 符 串 格式 必须 是 
yyyy-MM-dd HH:mm:ss， 如 果 不 
符合 则 返回 0， 如 果 符 合 则 将 此 时 
司 字符 串 转换 成 Unix 时 间 惟 。 例 
W: unix_timestamp('2009- 03-20 
11:30:01") = 1237573801 








将 指定 时 间 字 符 串 格式 字符 串 转 
换 成 Unix 时 间 惟 ， 如 果 格 式 不 对 
则 返回 0。 例 如 : 
unix_timestamp('2009-03-20', 'yyyy- 
MM-dd') = 1237532400 











STRING 


to_date(STRING 
timestamp) 


year(STRING date) 


month(STRING date) 


day(STRING date) 
dayofmonth(STRING 
date) 


hour(STRING date) 


minute(STRING date) 


second(STRING date) 


weekofyear (STRING 
date) 


datediff (STRING 
enddate, STRING 
startdate) 


返回 时 间 字 符 串 的 日 期 部 分 ， 例 
如 : to_date("1970-01-01 
00:00:00") = "1970-01-01" 





返回 时 间 字 符 串 中 的 年 份 并 使 用 
INT 类 型 表示 。 例 如 :year("1970- 
01-01 00:00:00") = 1970, 


year("1970-01-01") = 1970 





返回 时 间 字 符 串 中 的 月 份 并 使 用 
INT 类 型 表示 。 例 如 : month("1970- 
11-01 00:00:00") = 11, 
month("1970-11-01") = 11 








返回 时 间 字 符 串 中 的 天 并 使 用 INT 
类 型 表示 。 例 如 :day("1970-11-01 
00:00:00") = 1, day("1970-11-01 = 
1 





返回 时 间 惟 字符 串 中 的 小 时 并 使 
INT 类 型 表示 。 例 如 : 























hour('2009-07-30 12:58:59') = 12, 
hour(12:58:59"') = 12 


返回 时 间 字 符 串 中 的 分 钟 数 


回 时 间 字 符 串 中 的 秒 数 











返回 时 间 字 符 串 位 于 一 年 中 第 
个 周 内 。 例 如 : weekofyear("1970- 
11-01 00:00:00") = 44, 
weekofyear("1970-11-01") = 44 





计算 开始 时 间 startdata 到 结束 时 间 
enddata 相 差 的 天 数 。 例 如 : 
datediff('2009-03-01', '2009-02-27') 
=2 




















Startdate. Inv days) | 为 开始 时 间 startdata 增 加 days 天 。 
STRING 例如 : date_add('2008-12-31', 1) = 
'2009-01-01' 


从 开始 时 间 startdata 中 减 去 days 
Se ere days) | Æe Pl: date sub(2008-12-31, 
1) = '2008-12-30' 








from_ute_timestamp “| 如 果 给 定 的 时 间 改 并 非 UTC， 则 
TIMESTAMP (TIMESTAMP timestamp, | 将 其 转化 成 指定 的 时 区 下 的 时 间 

















STRING timezone) 


BK (Hive 0.8.0 版 本 新 增 ) 


如 果 给 定 的 时 间 蕉 是 指定 的 时 区 
coute_tinestamp | 下 的 时 间 戳 ， 则 将 其 转化 成 UTC 
Came tinera) P | 下 的 时 间 惟 《Hive 0.8.0 版 本 新 


增 ) 





需要 注意 的 是 ， 和 时 间 相 关 的 函数 输入 的 是 整 型 或 者 字符 串 类 型 参 
数 。 对 于 Hive v0.8.0 版 本 ， 这 些 函 数 同 样 接受 TIMESTAMP 类 型 参数 ， 
同时 为 了 癌 后 兼容 ， 它 们 还 将 继续 支持 之 前 的 整 型 和 字符 串 类 型 参数 。 





6.1.5 LIMIT 语句 ] 
典型 的 查询 会 返回 多 行 数据 。LIMIT 子 句 用 于 限制 返回 的 行 数 : 


hive> SELECT upper(name), salary, deductions["Federal Taxes"], 
> round(salary * (1 - deductions["Federal Taxes"])) FROM employees 
> LIMIT 2; 


JOHN DOE 100000.0 0.2 80000 
MARY SMITH 80000.0 0.2 64000 





6.1.6 FAIZ 


前 面 的 示例 查询 语句 可 以 认为 是 返回 一 个 由 新 列 组 成 的 新 的 关系 ， 
其 中 有 些 新 产生 的 结果 列 对 于 表 employees 来 说 是 不 存在 的 。 通 常 有 必 
要 给 这 些 新 产生 的 列 起 一 个 名 称 ， 也 融 是 别名 。 下 面 这 个 例子 对 之 前 的 
那个 查询 进行 了 修改 ， 为 第 3 个 和 第 4 个 字段 起 了 别名 ， 别 名 分 别 为 


fed_taxes 和 salary_minus_fed_taxes。 











hive> SELECT upper(name), salary, deductions["Federal Taxes"] as fed_taxes, 
> round(salary * (1 - deductions["Federal Taxes"])) as salary_minus_ fed_taxes 
> FROM employees LIMIT 2; 

JOHN DOE 100000.0 0.2 80000 


MARY SMITH 80000.0 0.2 64000 





6.1.7 #RASELECTiE*) 


TREES WAR, EHAE EEE AAAS. FH, FRAT 
HT aN BITE A MRE BA: 


hive> FROM ( 
> SELECT upper(name), salary, deductions["Federal Taxes"] as fed_taxes, 
round(salary * (1 - deductions["Federal Taxes"])) as salary_ minus_fed_taxes 
FROM employees 


> 

> 

> ) e 

> SELECT e.name, e.salary_minus_fed_taxes 

> WHERE e.salary_minus_fed_taxes > 70000; 
JOHN DOE 100000.0 0.2 80000 








\Ik-MRER aie Pa eB, BT AG RRE SA] 
名 ， 称 之 为 e， 在 这 个 语句 外 面 散 套 人 查询 了 name 和 
salary_minus_fed_taxes 两 个 字段 ， 同 时 约束 后 者 的 值 要 大 于 70，000。 
(在 后 面 的 第 6.2 节 “WHERE 语 句 ” 中 我 们 将 会 讨论 WHERE 相 关内 
Bo) 


6.1.8 CASE... WHEN... THEN 4) zt 


CASE ... WHEN ... THEN 语 句 和 if 条 件 语句 类 似 ， 用 于 处 理 单个 列 
的 查询 结果 。 


例如 : 





hive> SELECT name, salary, 
> CASE 


> WHEN salary < 50000.0 THEN 'low' 
> WHEN salary >= 50000.0 AND salary < 70000.0 THEN 'middle' 
> WHEN salary >= 70000.0 AND salary < 100000.0 THEN 'high' 
> ELSE 'very high' 
> END AS bracket FROM employees; 

John Doe 100000.0 very high 

Mary Smith 80000.0 high 

Todd Jones 70000.0 high 

Bill King 60000.0 middle 

Boss Man 200000.0 very high 

Fred Finance 150000.0 very high 

Stacy Accountant 60000.0 middle 


6.1.9 ”什么 情况 下 Hive 可 以 避免 进行 MapReduce 


对 于 本 书 中 的 查询 ， 如 果 用 户 进 行 过 执行 的 话 ， 那 么 可 能 会 注意 到 
大 多 数 情况 下 查询 都 会 触及 一 个 MapReduce 任 务 (job) 。Hive 中 对 某 些 
情况 的 查询 可 以 不 必 使 用 MapReduce， 也 就 是 所 谓 的 本 地 模式 ， 例 如 : 





SELECT * FROM employees; 


在 这 种 情况 下 ，Hive 可 以 简单 地 读 取 employees 对 应 的 存储 目录 下 
的 文件 ， 然 后 输出 格式 化 后 的 内 容 到 控制 台 。 


对 于 WHERE 语句 中 过 滤 条 件 只 是 分 区 字段 这 种 情况 〈 无 论 是 否 使 
用 LIMIT 语 句 限 制 输出 记录 条 数 ) ， 也 是 无 需 MapReduce 过 程 的 。 











SELECT * FROM employees 
WHERE country='US' AND state='CA' 
LIMIT 100; 


此 外 ， 如 果 属 性 hive.exec.mode.local.auto 的 值 设 置 为 true 的 话 ，Hive 
还 会 尝试 使 用 本 地 模式 执行 其 他 的 操作 : 


否则 ，Hive 使 用 MapReduce 来 执行 其 他 所 有 的 查询 。 


Wa 


a se 
Y 提示 


相信 我 ， 最 好 将 set hive.exec.mode.local.auto=true; 这 个 设置 增加 
到 你 的 $4HOME/.hiverc 配 置 文件 中 。 


6.2 WHERE 语句 


SELECT 语句 用 于 选取 字段 ，WHERE 语 句 用 于 过 滤 和 条件， 两 者 结 
合 使 用 可 以 查找 到 符合 过 滤 条 件 的 记录 。 和 SELECT 语句 一 样 ， 在 介绍 
WHERE 语句 之 前 我 们 已 经 在 很 多 的 简单 例子 中 使 用 过 它 了 。 之 前 都 是 
假定 用 户 是 见 过 这 样 的 语句 的 ， 现 在 我 们 将 更 多 地 探讨 一 些 细节 。 


WHERE 语句 使 用 谓词 表达 式 ， 对 于 列 应 用 在 谓词 操作 符 上 的 情 
况 ， 稍 后 我 们 将 进行 讨论 。 有 几 种 谓词 表达 式 可 以 使 用 AND 和 OR 相 连 
接 。 当 谓词 表达 式 计算 结果 为 tue 时 ， 相 应 的 行将 被 保留 并 输出 。 


我 们 刚才 束 使 用 了 下 面 这 个 例子 来 限制 查询 的 结果 必须 是 美国 的 加 
利 福 尼 亚 州 的 : 


SELECT * FROM employees 
WHERE country = 'US' AND state = 'CA'; 


谓词 可 以 引用 和 SELECT 语句 中 相同 的 各 种 对 于 列 值 的 计算 。 这 里 我 们 
修改 下 之 前 的 对 于 联邦 税收 的 查询 ， 过 滤 保 留 那 些 工资 减 去 联邦 税 后 总 
额 大 于 70，000 的 查询 结 








hive> SELECT name, salary, deductions["Federal Taxes"], 
> salary * (1 - deductions["Federal Taxes"]) 
> FROM employees 


> WHERE round(salary * (1 - deductions["Federal Taxes"])) > 70000; 
John Doe 100000.0 0.2 80000.0 








这 个 查询 语句 有 点 难看 ， 因 为 第 2 行 的 那个 复杂 的 表达 式 和 WHERE 
后 面 的 表达 式 是 一 样 的 。 下 面 的 查询 语句 通过 使 用 一 个 列 别名 消除 了 这 
里 表达 式 重 复 的 问题 ， 但 是 不 幸 的 是 它 不 是 有 效 的 : 





hive> SELECT name, salary, deductions["Federal Taxes"], 
> salary * (1 - deductions["Federal Taxes"]) as salary_minus_fed_taxes 
> FROM employees 
> WHERE round(salary_minus_fed_taxes) > 70000; 


FAILED: Error in semantic analysis: Line 4:13 Invalid table alias or 
column reference 'salary_minus_fed_taxes': (possible column names are: 
name, salary, subordinates, deductions, address) 





正如 错误 信息 所 提示 的 ， 不 能 在 WHERE 语句 中 使 用 列 别名 。 不 
过 ， 我 们 可 以 使 用 一 个 侍 套 的 SELECT 语句 : 


hive> SELECT e.* FROM 
> (SELECT name, salary, deductions["Federal Taxes"] as ded, 
> salary * (1 - deductions["Federal Taxes"]) as salary_minus_fed_taxes 
> FROM employees) e 


> WHERE round(e.salary_minus_fed_taxes) > 70000; 
John Doe 100000.0 0.2 80000 .0 
Boss Man 200000.0 0.3 140000.0 
Fred Finance 150000.0 0.3 105000.0 





6.2.1 谓词 操作 符 


表 6-6 描 述 了 谓词 操作 符 ， 这 些 操 作 符 同 样 可 以 用 于 JOIN.. ON 和 
HAVING 语 句 中 。 


表 6-6 ”谓词 操作 答 














如 果 A 等 于 B 则 返回 TRUE, 反 之 返回 











如 果 A 和 B 都 为 NULEL 则 返回 TRUE， 其 他 的 和 等 号 (=) 操作 
符 的 结果 一 致 ， 如 果 任 一 为 NULEL 则 结果 为 NULL (Hive 0.9.0 
版 本 新 增 ) 




















这 个 是 错误 的 语法 ! SQL 使 用 =， 而 不 是 == 











A 或 者 B 为 NULL 则 返回 NULL; 如 果 A 不 等 于 B 则 返回 TRUE， 
反之 返回 FALSE 








A 或 者 B 为 NULL 则 返回 NULL; 如 果 A 小 于 B 则 返回 TRUE， 反 
之 返回 FALSE 














A 或 者 B 为 NULL 则 返回 NULL; 如 果 A 小 于 或 等 于 B 则 返回 
TRUE， 反 之 返回 FALSE 























A 或 者 B 为 NULL 则 返回 NULL; 如 果 A 大 于 B 则 返回 TRUE， 反 





A>B 据 类 型 | 之 返回 FALSE 








A 或 者 B 为 NULL 则 返回 NULL; 如 果 A 大 于 或 等 于 B 则 返回 
TRUE， 反 之 返回 FALSE 











如 果 A，B 或 者 C 任 一 为 NULL， 则 结果 为 NULL 。 如 果 A 的 值 
大 于 或 等 于 B 而 且 小 于 或 等 于 C， 则 结果 为 TRUE， 反 之 为 
FALSE. 如 果 使 用 NOT 关 键 字 则 可 达到 相反 的 效果 (Hive 0.9.0 
版 本 中 新 增 ) 




















如 果 人 A 等 于 NULL 则 返回 TRUE; 反 之 返回 FALSE 











如 果 人 A 不 等 于 NULL 则 返回 TRUE; 反 之 返回 FALSE 








B 是 一 个 SQL 下 的 简单 正则 表达 式 ， 如 果 A 与 其 匹配 的 话 ， 则 
返回 TRUE; 反 之 返回 FALSE。B 的 表达 式 说 明 如 下 : x% RR 

STRING | A 必须 以 字母 x? 开 头 ，’%x’ 表 示人 A 必须 以 字母 Xx’ 结尾， 

类 型 而 *%x%’ 表 示人 A 包含 有 字母 'x?， 可 以 位 于 开头 ， 结 尾 或 者 字符 
ERE. K, FRR 匹配 单个 字符 。B 必 须要 和 整个 字 
符 串 A 相 匹配 才 行 .如 果 使 用 NOT 关 键 字 则 可 达到 相反 的 效果 


























B 是 一 个 正则 表达 式 ， 如 果 A 与 其 相 匹 配 ， 则 返回 TRUE”"; 反 之 
返回 FALSE。 匹 配 使 用 的 是 JDK 中 的 正则 表达 式 接口 实现 的 ， 
因为 正则 规则 也 依据 其 中 的 规则 。 例 如 ， 正 则 表达 式 必须 和 
整个 字符 串 A 相 匹配 ， 而 不 是 只 需 与 其 子 字符 串 匹 配 。 关 于 正 
则 表达 式 请 参阅 后 面 更 多 信息 

















STRING 
类 型 



































后 面 我 们 将 详细 讨论 下 LIKE 和 RLIKE( 请 看 第 6.2.3 节 “LIKE 和 
RLIKE”)。 首 先 ， 我 们 先 说 明 下 用 户 应 该 明日 的 关于 浮 点 数 比 较 的 内 
Bs 


6.2.2 ”关于 浮 点 数 比 较 


浮上 点数 比较 的 一 个 和 常见 陷阱 出 现在 不 同类 型 间作 比较 的 时 候 《〈 也 就 
是 FLOAT 和 DOUBLE 比 较 ) 。 思 考 下 面 这 个 对 于 员工 表 的 查询 语句 ， 











该 语句 将 返回 员工 姓名 、 工 资 和 联邦 税 ， 过 滤 条 件 是 新 水 的 减免 税 球 超 
过 0.2 (20%) : 





hive> SELECT name, salary, deductions['Federal Taxes'] 


> FROM employees WHERE deductions['Federal Taxes'] > 0.2; 
John Doe 100000.0 
Mary Smith 
Boss Man 
Fred Finance 150000.0 





等 一 下 ! 为 什么 deductions['Federal Taxes'] = 0.2 的 记录 也 被 输出 
了 ? 


这 是 个 Hive 的 Bug 吗 ? 确实 有 个 issue 是 关于 这 个 问题 的 ， 但 是 其 实 
际 上 反映 了 内 部 是 如 何 进行 浮 点 数 比 较 的 ， 这 个 问题 几乎 影响 了 在 现在 
数字 计算 机 中 所 有 使 用 各 种 各 样 编程 语言 编写 的 软件 〈 请 参 
a] https://issues.apache.org/jira/browse/HIVE-2586) 。 











当 用 户 写 一 个 浮 点 数 时 ， 比 如 0.2，Hive 会 将 该 值 保存 为 DOUBLE 
型 的 。 我 们 之 前 定义 deductions 这 个 map 的 值 的 类 型 是 FLOAT 型 的 ， 这 
意味 着 Hive 将 隐 式 地 将 税收 减免 值 转换 为 DOUBLE 类 型 后 再 进行 比较 。 
这 样 应 该 是 可 以 的 ， 对 吗 ? 


事实 上 ， 这 样 行 不 通 。 这 里 解释 下 为 什么 不 能 。 数 字 0.2 不 能 够 使 
用 FLOAT 或 DOUBLE 进 行 准确 表示 。 ( 参 
a] http://docs.oracle.com/cd/E19957-01/806-3568/ncg_goldberg.html, JRA 
探讨 浮 点 数 问题 )》 。 在 这 个 例子 中 ，0.2 的 最 近似 的 精确 值 应 略 大 于 
0.2， 也 就 是 0.2 后 面 的 奋 干 个 0 后 存在 非 零 的 数值 。 


为 了 简化 一 点 ， 实 际 上 我 们 可 以 说 0.2 对 于 FLOAT 类 型 是 
0.2000001， 而 对 于 DOUBLE 类 型 是 0.200000000001。 这 是 因为 一 个 8 个 
字 节 的 DOUBLE 值 具有 更 多 的 小 数位 (也 就 是 小 数 点 后 的 位 数 ) 。 当 表 
中 的 FLOAT 值 通过 Hive 转 换 为 DOUBLE 值 时 ， 其 产生 的 DOUBLE 值 是 
0.200000100000， 这 个 值 实际 要 比 0.200000000001 大 。 这 就 是 为 什么 这 
个 查询 结果 像 是 使 用 了 >= 而 不 是 > 了 。 


这 个 问题 并 非 仅仅 存在 于 Hive 中 或 Java 中 (Hive 是 使 用 Java 实 现 
的 ) 。 而 是 所 有 使 用 IEEE 标 准 进 行 浮 点 数 编 码 的 系统 中 存在 的 一 个 普 氨 


的 问题 。 








然而 ，Hive 中 有 两 种 规避 这 个 问题 的 方法 。 


首先 ， 如 果 我 们 是 从 TEXTFILE 文 本 文件 (请 参考 第 15 章 内 容 ) 中 读 
取 数 据 的 话 ， 也 就 是 目前 为 止 我 们 所 假定 使 用 的 存储 格式 ， 那 么 Hive 会 
从 数据 文件 中 读 取 字符 串 “0.2”， 然 后 将 其 转换 为 一 个 真实 的 数字 。 我 们 
可 以 在 表 模 式 中 定义 对 应 的 字段 类 型 为 DOUBLE 而 不 是 FLOAT。 这 样 
我 们 就 可 以 对 deductions[Federal Taxes'] 这 个 DOUBLE 值 和 0.2 这 个 
DOUBLE 值 进行 比较 。 不 过 ， 这 种 变化 会 增加 我 们 查询 时 所 需 的 内 存 消 
耗 。 同 时 ， 如 果 存 储 格式 是 二 进 制 文件 格式 〈 如 SEQUENCEFILE (第 
15 章 将 会 进行 讨论 ) ) 的 话 ， 我 们 也 不 能 简单 地 进行 这 样 的 改变 。 


第 2 个 规避 方案 是 显 式 地 指出 0.2 为 FLOAT 类 型 的 。Java 中 有 一 个 很 好 的 
方式 能 够 达到 这 个 目的 : 只 需要 在 数值 末尾 加 上 字母 F 或 f( 例 如 ，0.2f)。 
不 幸 的 是 ，Hive 并 不 支持 这 种 语法 ， 这 里 我 们 必须 使 用 cast 操 作 符 。 


下 面 这 个 是 修改 后 的 查询 语句 ， 其 将 0.2 类 型 转换 为 FLOAT 类 型 
了 。 通 过 这 个 修改 ， 返 回 结果 是 符合 预期 的 : 














hive> SELECT name, salary, deductions['Federal Taxes'] FROM employees 
> WHERE deductions['Federal Taxes'] > cast(0.2 AS FLOAT); 


Boss Man 200000.0 0.3 
Fred Finance 150000.0 0.3 





注意 cast 操 作 符 内 部 的 语法 : 数值 AS FLOAT. 


实际 上 ， 还 有 第 3 种 解决 方案 ， 即 : 和 钱 相 关 的 都 避免 使 用 浮 点 


— 
SS ux 

对 浮 点 数 进行 比较 时 ， 需 要 保持 极端 谨慎 的 态度 。 要 避免 任何 
从 窄 类 型 隐 式 转换 到 更 广泛 类 型 的 操作 。 


6.2.3 LIKE 和 RLIKE 





表 6-6 描述 了 LIKE 和 RLIKE 谓 词 操 作 符 。 用 户 可 能 在 之 前 已 经 见 过 
LIKE 的 使 用 了 ， 因为 其 是 一 个 标准 的 SQL 操作 符 。 其 可 以 让 我 们 通过 字 
符 串 的 开头 或 结尾 ， 以 及 指定 特定 的 子 字符 串 ， 或 当 子 字符 串 出 现在 字 





符 串 内 的 任何 位 置 时 进行 匹配 。 


例如 ， 下 面 3 个 查询 依次 分 别 选择 出 了 住址 中 街道 是 以 字符 串 Ave 结 
尾 的 雇员 名 称 和 住址 、 城 市 是 以 DO 开头 的 雇员 名 称 和 住址 和 街道 名 称 中 
包含 有 Chicago 的 雇员 名 称 和 住址 : 





hive> SELECT name, address.street FROM employees WHERE address.street LIKE '%Ave.'; 
John Doe 1 Michigan Ave. 
Todd Jones 200 Chicago Ave. 


hive> SELECT name, address.city FROM employees WHERE address.city LIKE '0%'; 

Todd Jones Oak Park 

Bill King Obscuria 

hive> SELECT name, address.street FROM employees WHERE address.street LIKE '%Chi%'; 
Todd Jones 200 Chicago Ave. 








RLIKE 子 句 是 Hive 中 这 个 功能 的 一 个 扩展 ， 其 可 以 通过 Java 的 正则 
表达 式 这 个 更 强大 的 语言 来 指定 匹配 条 件 。 不 过 本 书 中 不 会 介绍 正则 表 
达 式 的 语法 和 功能 。 表 6-6 中 的 RLIKE 项 有 关于 正则 表达 更 详细 信息 介 
绍 的 链接 。 这 里 ， 我 们 通过 一 个 例子 来 展示 它们 的 用 法 ， 这 个 例子 会 从 
employees 表 中 人 查找 所 有 住址 的 街道 名 称 中 含有 单词 Chicago 或 Ontario 的 
雇员 名 称 和 街道 信息 : 














hive> SELECT name, address.street 
> FROM employees WHERE address.street RLIKE '.*(Chicago|Ontario).*'; 
Mary Smith 100 Ontario St. 


Todd Jones 200 Chicago Ave. 


关键 字 RLIKE 后 面 的 的 字符 串 表 达 如 下 含义 : 字符 串 中 的 点 号 (.) 








表示 和 任意 的 字符 匹配 ， 星 号 (*) 表示 重复 “左边 的 字符 串 ”( 在 以 上 
所 示 2 个 例子 中 为 点 号 ) 零 次 到 无 数 次 。 表 达 式 (x|y) 表 示 和 x 或 者 y 罗 
配 。 

不 过 , “Chicago” 或 者 “Ontario” 字 符 串 前 可 能 没有 其 他 任何 字符 ， 
而 且 它 们 后 面 也 可 能 不 含有 其 他 任何 字符 。 当 然 ， 我 们 也 可 以 通过 2 个 
LIKE 子 句 来 改写 这 个 例子 为 如 下 这 个 样子 : 


SELECT name, address FROM employees 





WHERE address.street LIKE '%Chicago%' OR address.street LIKE '%Ontario%'; 


通过 正则 表达 式 可 以 比如 上 这 种 通过 多 个 LIKE 子 句 进行 过 滤 表 达 
更 丰富 的 匹配 条 件 。 








关于 Hive 中 通过 Java 实 现 的 正则 表达 式 的 更 详细 信息 ， 请 得 看 如 下 
链接 中 关于 Java 的 正则 表达 式 语 法 部 分 的 介 
绍 : http://docs.oracle.com/javase/6/docs/api/java/util/regex/Pattern.html , 
或 者 可 以 参考 Tony Stubblebine (O’Reilly) 所 著 的 《正则 表达 式 参 考 手 
册 》 以 及 Jan Goyvaerts 和 Steven Levithan (O’Reilly) 所 著 的 《正则 表达 式 
Cookbook》， 也 可 以 参考 JeffreyE.F. Friedl (O’Reilly) 所 著 的 《精通 正则 
表达 式 -〈 第 三 版 ) 》。 


6.3 GROUP BY 语句 


GROUP BY 语句 通 剃 会 和 聚合 函数 一 起 使 用 ， 按 照 一 个 或 者 多 个 
列 对 结果 进行 分 组 ， 然 后 对 每 个 组 执行 聚合 操作 。 


我 们 重新 看 下 第 4.3.2 节 “外 部 表 ” 中 所 介绍 的 股价 交易 表 stocks。 如 
下 这 个 查询 语句 按照 苹果 公司 股票 (股票 代码 APPL》 的 年 份 对 股票 记 
录 进 行 分 组 ， 然 后 计算 每 年 的 平均 收盘 价 : 





hive> SELECT year(ymd), avg(price_close) FROM stocks 
> WHERE exchange = 'NASDAQ' AND symbol = 'AAPL' 
> GROUP BY year(ymd); 

1984 25.578625440597534 

1985 20.193676221040867 


1986 32 .46102808021274 
1987 53.88968399108163 
1988 41 .540079275138766 


1989 41 .65976212516664 
1990 37 . 56268799823263 
1991 52. 49553383386182 
1992 54.80338610251119 
1993 41.02671956450572 
1994 34.0813495847914 





HAVING 语 句 


HAVING 子 句 允 许 用 户 通 过 一 个 简单 的 语法 完成 原本 需要 通过 子 查 询 才 
能 对 GROUP BY 语句 产生 的 分 组 进行 条 件 过 滤 的 任务 。 如 下 是 对 前 面 的 
查询 语句 增加 一 个 HAVING 语 句 来 限制 输出 结果 中 年 平均 收盘 价 要 大 于 
$50.0: 





hive> SELECT year(ymd), avg(price_close) FROM stocks 
> WHERE exchange = 'NASDAQ' AND symbol = 'AAPL' 
> GROUP BY year(ymd) 
> HAVING avg(price_close) > 50.0; 
53 .88968399108163 
52.49553383386182 


54.80338610251119 
57.77071460844979 
71.74892876261757 
52 .401745992993554 





QO RIE AHAVING 4), MARNE EEA rE 


SELECT 子 查询 : 


hive> SELECT s2.year, s2.avg FROM 
> (SELECT year(ymd) AS year, avg(price_close) AS avg FROM stocks 
> WHERE exchange = 'NASDAQ' AND symbol = 'AAPL' 


> GROUP BY year(ymd)) s2 
> WHERE s2.avg > 50.0; 
1987 53 .88968399108163 





6.4 JOIN 语 铝 
Hive 支 持 通常 的 SQL JOIN 语句 ， 但 是 只 支持 等 值 连接 。 
0.4.1 INNER JOIN 


内 连接 (INNER JOIN) 中 ， 只 有 进行 连接 的 两 个 表 中 都 存在 与 连 
接 标 准 相 匹 配 的 数据 才 会 被 保留 下 来 。 例 如 ， 如 下 这 个 查询 对 苹果 公司 
的 股价 《股票 代码 AAPL ) 和 IBM 公 司 的 股价 《股票 代码 IBM) 进行 比 
较 。 股 票 表 stocks 进 行 自 连接 ， 连接 条 件 是 ymd 字 段 〈 也 就 是 year- 
oe -day) 内 容 必须 相等 。 我 们 也 称 ymd 字 段 是 这 个 查询 语句 中 的 连接 
Fe 


hive> SELECT a.ymd, a.price_close, b.price_close 
> FROM stocks a JOIN stocks b ON a.ymd = b.ymd 
> WHERE a.symbol = 'AAPL' AND b.symbol = 'IBM'; 


2010-01-04 214.01 132.45 
2010-01-05 214.38 130.85 
2010-01-06 210.97 130.0 
2010-01-07 210.58 129.55 
2010-01-08 211.98 130.85 
2010-01-11 210.11 129.48 








ON 子 句 指定 了 两 个 表 间 数据 进行 连接 的 条 件 。WHERE 子 句 限制 了 
左边 表 是 AAPL 的 记录 ， 右 边 表 是 IBM 的 记录 。 同 时 用 户 可 以 看 到 这 个 
查询 中 需要 为 两 个 表 分 别 指定 表 别 名 。 


众所周知 ，IBM 要 比 Apple 老 得 多 。IBM 也 比 Apple 具 有 更 久 的 股票 
交易 记录 。 不 过 ， 既 然 这 是 一 个 内 连接 (INNER JOIN) ，IBM 的 1984 
aoe 的 记录 就 会 被 过 滤 掉 ， 也 就 是 Apple 股 票 交 易 日 的 第 一 天 算 
a! 








标准 SQL 是 文 持 对 连接 关键 词 进 行 非 等 值 连接 的 ， 例 如 下 面 这 个 显 
示 Apple 和 IBM 对 比 数据 的 子 ， 连 接 条 件 是 Apple 的 股票 交易 日 期 要 比 
IBM 的 股票 交易 日 期 早 。 这 个 将 会 返回 很 少数 据 〈 如 例 6-1 所 示 ) ! 


例 6-1 ”Hive 中 不 支持 的 查询 语句 


SELECT a.ymd, a.price_close, b.price_close 
FROM stocks a JOIN stocks b 























ON a.ymd <= b.ymd 
WHERE a.symbol = 'AAPL' AND b.symbol = 'IBM'; 








这 个 语句 在 Hive 中 是 非法 的 ， 主 要 原因 是 通过 MapReduce 很 难 实现 
这 种 类 型 的 连接 。 不 过 因为 Pig 提 供 了 一 个 交叉 生产 功能 ， 所 以 在 Pig 中 
是 可 以 实现 这 种 连接 的 ， 尽 管 Pig 的 原生 连接 功能 并 不 文 持 这 种 连接 。 


同时 ，Hive 目 前 还 不 支持 在 ON 子 句 中 的 谓词 间 使 用 OR。 


通过 下 面 的 例子 我 们 来 看 下 非 自 连接 操作 。dividends 表 的 数据 同样 
来 自 于 infochimps.org， 正 如 在 第 4.3.2 节 中 所 介绍 的 ; 





CREATE EXTERNAL TABLE IF NOT EXISTS dividends ( 
ymd STRING, 
dividend FLOAT 


) 
PARTITIONED BY (exchange STRING, symbol STRING) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 





下 面 这 个 例子 就 是 苹果 公司 的 stocks 表 和 dividends 表 按照 字段 ymd 和 
字段 Symbol 作为 等 值 连 接 键 的 内 连接 (INNER JOIN) : 


hive> SELECT s.ymd, s.symbol, s.price_close, d.dividend 
> FROM stocks s JOIN dividends d ON s.ymd = d.ymd AND s.symbol = d.symbol 
> WHERE s.symbol = 'AAPL'; 

1987-05-11 AAPL .0 0.015 

1987-08-10 AAPL .25 0.015 

1987-11-17 AAPL .0 0.02 


1995-02-13 AAPL .75 0.03 

1995-05-26 AAPL .69 0.03 
1995-08-16 AAPL .5 0.03 
1995-11-21 AAPL .63 0.03 
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USCA BO! 注意 到 因为 我 们 使 用 了 和 内 连接 ， 我 们 只 看 到 每 隔 3 个 月 的 
记录 。 通 常 文 付 股 奶 的 时 间 表 会 在 宣布 季度 业绩 报告 时 进行 公布 。 


用 户 可 以 对 多 于 2 张 表 的 多 张 表 进行 连接 操作 。 下 面 我 们 来 对 Apple 
公司 、IBM 公 司 和 GE 公司 并 排 进行 比较 : 














hive> SELECT a.ymd, a.price_close, b.price_close , c.price_close 

> FROM stocks a JOIN stocks b ON a.ymd = b.ymd 

> JOIN stocks c ON a.ymd = c.ymd 

> WHERE a.symbol = 'AAPL' AND b.symbol = 'IBM' AND c.symbol = 'GE'; 
2010-01-04 214.01 132.45 15.45 


2010-01-05 214.38 130.85 15.53 


2010-01-06 210.97 130.0 15.45 
2010-01-07 210.58 129.55 16.25 
2010-01-08 211.98 130.85 16.6 
2010-01-11 210.11 129.48 16.76 





大 多 数 情 况 下 ，Hive 会 对 每 对 JOIN 连接 对 象 启动 一 个 MapReduce 任 
务 。 本 例 中 ， 会 首先 启动 一 个 MapReduce job 对 表 a 和 表 b 进 行 连接 操 
作 ， 然 后 会 再 启动 一 个 MapReduce job 将 第 一 个 MapReduce job 的 输出 和 
表 c 进 行 连接 操作 。 











人 
“a a 
为 什么 不 是 表 b 和 表 c 先 进行 连接 操作 昵 ? 这 是 因为 Hive 总 是 按 
照 从 左 到 右 的 顺序 执行 的 。 
不 过 ， 这 个 例子 实际 上 得 益 于 一 个 优化 ， 这 个 后 面 我 们 将 进行 讨 


论 。 














6.4.2 ”JOIN 优化 


在 前 面 的 那个 例子 中 ， 每 个 ON 子 句 中 都 使 用 到 了 a.ymd 作 为 其 中 一 
个 JOIN 连 接 键 。 在 这 种 情况 下 ，Hive 通 过 一 个 优化 可 以 在 同一 个 
MapReduce job 中 连接 3 张 表 。 同 样 ， 如 果 b.ymd 也 用 于 ON 子 句 中 的 话 ， 
那么 也 会 应 用 到 这 个 优化 。 





wv a, 
48 J 
Ea a HR 


当 对 3 个 或 者 更 多 个 表 进 行 JOIN 连 接 时 ， 如 果 每 个 ON 子 句 都 使 
用 相同 的 连接 键 的 话 ， 那 么 只 会 产生 一 个 MapReduce job. 


Hive 同 时 假定 查询 中 最 后 一 个 表 是 最 大 的 那个 表 。 在 对 每 行 记录 进 
行 连接 操作 时 ， 它 会 尝试 将 其 他 表 绥 存 起 来 ， 然 后 扫描 最 后 那个 表 进 行 
ae 因此 ， 用 户 需 要 保证 连续 查询 中 的 表 的 大 小 从 左 到 右 是 依次 增加 








回想 下 之 前 对 表 stocks 和 表 dividends 进 行 的 连接 操作 。 我 们 错误 地 
将 最 小 的 表 dividends 放 在 了 最 后 面 : 


SELECT s.ymd, s.symbol, s.price_close, d.dividend 


FROM stocks s JOIN dividends d ON s.ymd = d.ymd AND s.symbol = d.symbol 
WHERE s.symbol = 'AAPL'; 





应 该 交换 下 表 stocks 和 表 dividends 的 位 置 ， 如 下 所 示 : 


SELECT s.ymd, s.symbol, s.price_close, d.dividend 


FROM dividends d JOIN stocks s ON s.ymd = d.ymd AND s.symbol = d.symbol 
WHERE s|.Symbol = 'AAPL'; 





不 过 因为 这 个 数据 集 并 不 大 ， 所 以 并 没有 明显 地 看 出 和 之 前 执行 的 
性 能 的 差别 ， 但 是 对 于 大 数据 集 ， 用 户 将 会 感知 到 这 个 优化 。 


幸运 的 是 ， 用 户 并 非 总 是 要 将 最 大 的 表 放 置 在 查询 语句 的 最 后 面 
的 。 这 是 因为 Hive 还 提供 了 一 个 “标记 ”机 制 来 显 式 地 告 之 查询 优化 占 哪 
张 表 是 大 表 ， 使 用 方式 如 下 : 











SELECT /*+STREAMTABLE (s) */s.ymd, s.symbol, s.price_close, d.dividend 
FROM stocks s JOIN dividends d ON s.ymd = d.ymd AND s.symbol = d.symbol 





WHERE s.symbol = 'AAPL'; 


现在 Hive 将 会 尝试 将 表 stocks 作 为 驱动 表 ， 即 使 其 在 查询 中 不 是 位 
于 最 后 面 的 。 


还 有 另外 一 个 类 似 的 非常 重要 的 优化 叫做 map-side JOIN, 用 户 可 以 
参考 第 6.4.9 节 中 的 内 容 。 





6.4.3 LEFT OUTER JOIN 


左 外 连接 通过 关键 字 LEFT OUTER 进 行 标 识 : 





hive> SELECT s.ymd, s.symbol, s.price_close, d.dividend 
> FROM stocks s LEFT OUTER JOIN dividends d ON s.ymd = d.ymd AND s.symbol = d.symb 


ol 
> WHERE s.symbol = 'AAPL'; 


1987-05-01 AAPL 80.0 NULL 
1987-05-04 AAPL 79.75 NULL 
1987-05-05 AAPL 80.25 NULL 
1987-05-06 AAPL 80.0 NULL 
1987-05-07 AAPL 80.25 NULL 
1987-05-08 AAPL 79.0 NULL 


1987-05-11 AAPL 77.0 0.015 
1987-05-12 AAPL 75.5 NULL 
1987-05-13 AAPL 78.5 NULL 
1987-05-14 AAPL 79.25 NULL 
1987-05-15 AAPL 78.25 NULL 
1987-05-18 AAPL 75.75 NULL 
1987-05-19 AAPL 73.25 NULL 
1987-05-20 AAPL 74.5 NULL 





在 这 种 JOIN 连接 操作 中 ，JOIN 操 作 符 左边 表 中 符合 WHERE 子 句 的 
所 有 记录 将 会 被 返回 。JOIN 操 作 符 右边 表 中 如 果 没 有 符合 ON 后 面 连接 
条 件 的 记录 时 ， 那 么 从 右边 表 指 定 选择 的 列 的 值 将 会 是 NULL。 


因此 ， 在 这 个 结果 人 集中， 我们 看 到 Apple 公 司 的 股票 记录 都 返回 
了 ， 而 d.dividend 字 段 的 值 通 常 是 NULL， 除 了 当天 有 支付 股息 的 那 条 记 
录 (也 就 是 输出 中 的 1987 年 5 月 11 日 那天 的 记录 ) o 








6.4.4 OUTER JOIN 
在 我 们 讨论 其 他 外 连接 之 前 ， 让 我 们 来 讨论 一 个 用 户 应 该 明白 的 问 


jel 





回想 下 ， 前 面 我 们 说 过 ， 通 过 在 WHERE 子 句 中 增加 分 区 过 滤器 可 
以 加 快 查询 速度 。 为 了 提高 前 面 那个 查询 的 执行 速度 ， 我 们 可 以 对 两 张 
表 的 exchange 字 段 增加 谓词 限定 : 


hive> SELECT s.ymd, s.symbol, s.price_close, d.dividend 

> FROM stocks s LEFT OUTER JOIN dividends d ON s.ymd = d.ymd AND s.symbol = d.symb 
ol 

> WHERE s.symbol = 'AAPL' 

> AND s.exchange = 'NASDAQ' AND d.exchange = 'NASDAQ'; 
1987-05-11 AAPL 77.0 0.015 


1987-08-10 AAPL 48.25 0.015 
1987-11-17 AAPL 35.0 0.02 
1988-02-12 AAPL 41.0 0.02 
1988-05-16 AAPL 41.25 0.02 





不 过 ， 这 时 我 们 发 现 输出 结果 改变 了 了， 虽然 我 们 可 能 认为 我 们 不 过 
增加 了 一 个 优化 ! 我 们 重新 获得 每 年 4 条 左右 的 股票 交易 记录 ， 而 且 我 
们 发 现 每 年 对 应 的 股息 值 都 是 非 NULL 的 。 换 句 话 说， 这 个 效果 和 之 前 
的 内 连接 (NNER JOIN) 是 一 样 的 ! 


在 大 多 数 的 SQL 实 现 中 ， 这 种 现象 实际 上 是 比较 常见 的 。 之 所 以 友 








生 这 种 情况 ， 是 因为 会 先 执行 JOIN 语句 ， 然 后 再 将 结果 通过 WHERE 语 
名 进行 过 滤 。 在 到 达 WHERE 语 句 时 ，d.exchange 字 段 中 大 多 数值 为 
NULL， 因 此 这 个 “优化 ”实际 上 过 滤 掉 了 那些 非 股 奶 支 付 日 的 所 有 记 
录 。 


一 个 直接 有 效 的 解决 方式 是 : 移 除 掉 WHERE 语句 中 对 dividends 表 
的 过 滤 条 件 ， 也 就 是 去 除 掉 d.exchange= ‘NASDAQ’ 这 个 限制 条 件 。 


hive> SELECT s.ymd, s.symbol, s.price_close, d.dividend 

> FROM stocks s LEFT OUTER JOIN dividends d ON s.ymd = d.ymd AND s.symbol = d.symb 
ol 

> WHERE s.symbol = 'AAPL' AND s.exchange = 'NASDAQ'; 


1987-05-07 AAPL 80.25 NULL 


1987-05-08 AAPL 79.0 NULL 
1987-05-11 AAPL 77.0 0.015 
1987-05-12 AAPL 75.5 NULL 
1987-05-13 AAPL 78.5 NULL 








这 种 方式 并 非 很 令 人 人 满意。 用户 可 能 会 想 知 道 是 人 否 可 以 将 WHERE 
语句 中 的 内 容 放置 到 ON 语句 里 ， 至 少 知道 分 区 过 滤 条 件 是 否 可 以 放置 
在 ON 语句 中 。 对 于 外 连接 (OUTER JOIN) 来 说 是 不 可 以 这 样 的 ， 尽 管 
Hive Wiki 中 的 文章 宣传 其 应 该 是 可 以 工作 的 《参考 链 
接 : https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Join 


hive> SELECT s.ymd, s.symbol, s.price_close, d.dividend 
> FROM stocks s LEFT OUTER JOIN dividends d 
> ON s.ymd = d.ymd AND s.symbol = d.symbol 
> AND s.symbol = 'AAPL' AND s.exchange = 'NASDAQ' AND d.exchange = 'NASDAQ'; 


1962-01-02 GE 74.75 NULL 
1962-01-02 IBM 572.0 NULL 
1962-01-03 GE 74.0 NULL 
1962-01-03 IBM 577.0 NULL 
1962-01-04 GE 73.12 NULL 
1962-01-04 IBM 571.25 NULL 


1962-01-05 GE 71.25 NULL 
1962-01-05 IBM 560.0 NULL 





对 于 外 连接 (OUTER JOIN) 会 忽略 掉 分 区 过 滤 和 条件。 不 过 ， 对 于 内 
连接 (NNER JOIN) 使 用 这 样 的 过 滤 谓 词 确实 是 起 作用 的 ! 


驻 运 的 是 ， 有 一 个 适用 于 所 有 种 类 连接 的 解决 方案 ， 那 就 是 使 用 骨 
套 SELECT 语 句 : 





hive> SELECT s.ymd, s.symbol, s.price_close, d.dividend FROM 
> (SELECT * FROM stocks WHERE symbol = 'AAPL' AND exchange = 'NASDAQ') s 
> LEFT OUTER JOIN 
> (SELECT * FROM dividends WHERE symbol = 'AAPL' AND exchange = 'NASDAQ') d 
> ON s.ymd = d.ymd; 


1988-02-10 AAPL 41.0 NULL 
1988-02-11 AAPL 40.63 NULL 
1988-02-12 AAPL 41.0 0.02 
1988-02-16 AAPL 41.25 NULL 
1988-02-17 AAPL 41.88 NULL 
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WHERE 语句 在 连接 操作 执行 后 才 会 执行 ， 因 此 WHERE 语句 应 
该 只 用 于 过 滤 那 些 非 NULL 值 的 列 值 。 同 时 ， 和 Hive 的 文档 说 明 中 
相反 的 是 ， ON 语句 中 的 分 区 过 滤 条 件 外 连接 (OUTER JOIN) 中 是 无 
效 的 ， 不 过 在 内 连接 (INNER JOIN) 中 是 有 效 的 。 


6.4.5 RIGHT OUTER JOIN 


右 外 连接 (RIGHT OUTER JOIN) 会 返回 右边 表 所 有 符合 WHERE 
语句 的 记录 。 左 表 中 匹配 不 上 的 字段 值 用 NULL 代 蔡 。 


这 里 我 们 调整 下 stocks 表 和 divideneds 表 的 位 置 来 执行 右 外 连接 ， 并 
保留 SELECT 语 句 不 变 : 


hive> SELECT s.ymd, s.symbol, s.price_close, d.dividend 

> FROM dividends d RIGHT OUTER JOIN stocks s ON d.ymd = s.ymd AND d.symbol = s.sym 
bol 

> WHERE s.symbol = 'AAPL'; 


1987-05-07 AAPL 80.25 NULL 


1987-05-08 AAPL 79.0 NULL 
1987-05-11 AAPL 77.0 0.015 
1987-05-12 AAPL 75.5 NULL 
1987-05-13 AAPL 78.5 NULL 





6.4.6 FULL OUTER JOIN 


最 后 介绍 的 完全 外 连接 (FULL OUTER JOIN) 将 会 返回 所 有 表 中 
符合 WHERE 语句 条 件 的 所 有 记录 。 如 果 任 一 表 的 指定 字段 没有 符合 条 
件 的 值 的 话 ， 那 么 就 使 用 NULL 值 蔡 代 。 


如 琳 我 们 将 前 面 的 碍 询 改写 成 一 个 完全 外 连接 查询 的 话 ， 事 实 上 获 
得 的 结果 和 之 前 的 一 样 。 这 是 因为 不 可 能 存在 有 股 恩 支付 记录 而 没有 对 
应 的 股票 交易 记录 的 情况 。 





hive> SELECT s.ymd, s.symbol, s.price_close, d.dividend 

> FROM dividends d FULL OUTER JOIN stocks s ON d.ymd = s.ymd AND d.symbol = s.symb 
ol 

> WHERE s.symbol = 'AAPL'; 


1987-05-07 AAPL 80.25 NULL 


1987-05-08 AAPL 79.0 NULL 
1987-05-11 AAPL 77.0 0.015 
1987-05-12 AAPL 75.5 NULL 
1987-05-13 AAPL 78.5 NULL 





6.4.7 LEFT SEMI-JOIN 





左 半 开 连接 (LEFT SEMI-JOIN) 会 返回 左边 表 的 记录 ， 前 提 是 其 
记录 对 于 右边 表 满 足 ON 语 句 中 的 判定 条 件 。 对 于 常见 的 内 连接 
(INNER JOIN) 来 说 ， 这 是 一 个 特殊 的 、 优 化 了 的 情况 。 大 多 数 的 
SQL 方言 会 通过 IN ... EXISTS 结 构 来 处 理 这 种 情况 。 例 如 下 面 的 例 6-2 
中 所 示 的 查询 ， 其 将 试图 返回 限定 的 股息 支付 日 内 的 股票 交易 记录 ， 不 
过 这 个 查询 Hive 是 不 支持 的 。 





例 6-2 ”Hive 中 不 支持 的 查询 


SELECT s.ymd, s.symbol, s.price_close FROM stocks s 
WHERE s.ymd, s.symbol IN 
(SELECT d.ymd, d.symbol FROM dividends d); 





不 过 ， 用 户 可 以 使 用 如 下 的 LEFT SEMI JOIN 语法 达到 同样 的 目 
的 : 
hive> SELECT s.ymd, s.symbol, s.price_close 


> FROM stocks s LEFT SEMI JOIN dividends d ON s.ymd = d.ymd AND s.symbol = d.symbo 
l; 


1962-11-05 IBM 361.5 
1962-08-07 IBM 373.25 
1962-05-08 IBM 459.5 
1962-02-06 IBM 551.5 





请 注意 ，SELECT 和 WHERE 语句 中 不 能 引用 到 右边 表 中 的 字段 。 
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Hive 不 支持 右 半 开 连 接 (RIGHT SEMI-JOIN) 。 





SEMI-JOIN 比 通常 的 INNER JOIN 要 更 高 效 ， 原 因 如 下 : 对 于 左 表 
中 一 条 指定 的 记录 ， 在 右边 表 中 一 旦 找到 匹配 的 记录 ，Hive 就 会 立即 停 
止 扫描 。 从 这 点 来 看 ， 左 边 表 中 选择 的 列 是 可 以 预测 的 。 


6.4.8” 稍 卡尔 积 JOIN 


笛 卡 尔 积 是 一 种 连接 ， 表 示 左 边 表 的 行 数 乘 以 右边 表 的 行 数 等 于 备 
卡尔 结果 集 的 大 小 。 也 就 是 说 如 果 左 边 表 有 5 行 数据 ， 而 右边 表 有 6 行 数 
据 ， 那 么 产生 的 结果 将 是 30 行 数据 : 


SELECTS * FROM stocks JOIN dividends; 


如 上 面 的 查询 ， 以 stocks 表 和 dividends 表 为 例 ， 实际 上 很 难 找到 合 
适 的 理由 来 执行 这 类 连接 ， 因 为 一 只 股票 的 股 恕 通常 并 非 和 男 一 只 股票 
配对 。 此 外 ， 币 卡尔 积 会 产生 大 量 的 数据 。 和 其 他 连接 类 型 不 同 ， 笛 卡 
尔 积 不 是 并 行 执 行 的 ， 而 且 使 用 MapReduce 计 算 架 构 的 话 ， 任 何方 式 都 
无 法 进行 优化 。 

这 里 非常 有 必要 指出 ， 如 果 使 用 了 错误 的 连接 JON) 语法 可 能 会 
导致 产生 一 个 执行 时 间 长 、 运 行 缓慢 的 笛 卡 尔 积 查询 。 例 如 ， 如 下 这 个 
查询 在 很 多 数据 库 中 会 被 优化 成 内 连接 CINNER JOIN) ， 但 是 在 Hive 
中 没有 此 优化 : 


hive > SELECT * FROM stocks JOIN dividends 

















> WHERE stock.symbol = dividends.symbol and stock.symbol='AAPL'; 


在 Hive 中 ， 这 个 查询 在 应 用 WHERE 语句 中 的 谓词 条 件 前 会 先进 行 
完全 俏 卡 尔 积 计算 。 这 个 过 程 将 会 消耗 很 长 的 时 间 。 如 有 果 设 置 属性 
hive.mapred.mode 值 为 strict 的 话 ，Hive 会 阻止 用 户 执行 笛 卡 尔 积 查 询 。 
第 10 章 “调整 ”中 我 们 将 更 详尽 地 讨论 这 个 功能 。 
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笛 卡 尔 积 在 一 些 情况 下 古 很 有 用 的 。 例 如 ， 假 设 有 一 个 表 表 示 
用 户 偏 好 ， 男 有 一 个 表 表示 新 闻 文 章 ， 同 时 有 一 个 算法 会 推测 出 用 
户 可 能 会 喜欢 读 哪些 文章 。 这 个 时 候 就 需要 使 用 笛 卡 尔 积 生成 所 有 
用 户 和 所 有 网 页 的 对 应 关系 的 集合 。 











6.4.9 map-side JOIN 


如 果 所 有 表 中 只 有 一 张 表 是 小 表 ， 那 么 可 以 在 最 大 的 表 通 过 mapper 
的 时 候 将 小 表 完 全 放 到 内 存 中 。Hive 可 以 在 map 端 执行 连接 过 程 〈 称 为 
map-side JOIN) ， 这 是 因为 Hive 可 以 和 内 存 中 的 小 表 进 行 逐 一 匹配 ， 从 
而 省 略 掉 常 规 连 接 操作 所 需要 的 reduce 过 程 。 即 使 对 于 很 小 的 数据 集 ， 
这 个 优化 也 明显 地 要 快 于 常规 的 连接 操作 。 其 不 仅 减 少 了 reduce 过 程 ， 
而 且 有 时 还 可 以 同时 减少 map 过 程 的 执行 步 又 。 


stocks 表 和 dividends 表 之 间 的 连接 操作 也 可 以 利用 到 这 个 优化 ， 
为 dividends 表 中 的 数据 集 很 小 ， 已 经 可 以 全 部 放 在 内 存 中 绥 存 起 来 了 。 


在 Hive v0.7 之 前 的 版 本 中 ， 如 果 想 使 用 这 个 优化 ， 需 要 在 查询 语句 
中 增加 一 个 标记 来 进行 触发 。 如 下 面 的 这 个 内 连接 (NNER JOIN) 的 
例子 所 示 : 




















SELECT /*+ MAPJOIN(d) */ s.ymd, s.symbol, s.price_close, d.dividend 


FROM stocks s JOIN dividends d ON s.ymd = d.ymd AND s.symbol = d.symbol 
WHERE s.symbol = 'AAPL'; 





在 一 个 比较 快 的 MacBook Pro 笔 记 本 电脑 上 执行 上 面 这 个 优化 后 的 
碍 询 大 约 需要 23s， 这 明显 比 优 化 前 执行 按 消耗 的 33s 要 快 。 在 相同 的 股 
票 样本 数据 集 上 执行 ， 执 行 速 度 提 高 了 大 约 30%。 


从 Hive v0.7 版 本 开始 ， 废 弃 了 这 种 标记 的 方式 ， 不 过 如 果 增 加 了 这 
个 标记 同样 是 有 ” 效 的 。 如 果 不 加 上 这 个 标记 ， 那 么 这 时 用 户 需 要 设 
置 属性 hive.auto.convert.JOIN 的 值 ” 为 tue， 这 样 Hive 才 会 在 必要 的 时 候 
启动 这 个 优化 。 默 认 情 况 下 这 个 属性 的 值 是 false。 


hive> set hive.auto.convert.join=true; 


hive> SELECT s.ymd, s.symbol, s.price_close, d.dividend 
> FROM stocks s JOIN dividends d ON s.ymd = d.ymd AND s.symbol = d.symbol 
> WHERE s.symbol = 'AAPL'; 





需要 注意 的 是 ， 用 户 也 可 以 配置 能 够 使 用 这 个 优化 的 小 表 的 大 小 。 
如 下 是 这 个 属性 的 默认 值 〈 单 位 是 字 市 ): 


hive.mapjoin.smalltable.filesize=25000000 


如 果 用 户 期 望 Hive 在 必要 的 时 候 目 动 局 动 这 个 优化 的 话 ， 那 么 可 以 
将 这 一 个 (或 两 个 ) 属性 设置 在 $HOME/.hiverc 文 件 中 。 


Hive 对 于 右 外 连接 (RIGHT OUTER JOIN) 和 全 外 连接 (FULL 
OUTER JOIN) 不 支持 这 个 优化 。 


如 果 所 有 表 中 的 数据 是 分 桶 的 ， 那 么 对 于 大 表 ， 在 特定 的 情况 下 同 
样 可 以 使 用 这 个 优化 ， 详 细 介绍 请 参见 第 9.6 贡 “分 棚 表 数据 存储 ?中 的 介 
绍 。 简 单 地 说 ， 表 中 的 数据 必须 是 按照 ON 语句 中 的 键 进行 分 桶 的 ， 而 
且 其 中 一 张 表 的 分 桶 的 个 数 必须 是 男 一 张 表 分 桶 个 数 的 大 干 倍 。 妆 满足 
这 些 条 件 时 ， 那 么 Hive 可 以 在 map 阶 段 按 照 分 桶 数据 进行 连接 。 因 此 这 
种 情况 下 ， 不 需要 先 获 取 到 表 中 所 有 的 内 容 ， 之 后 才 去 和 为 一 张 表 中 每 
个 分 桶 进行 匹配 连接 。 


不 过 ， 这 个 优化 同样 默认 是 没有 开局 的 。 需 要 设置 参数 
hive.optimize.bucketmapJOIN 为 true 才 可 以 开启 此 优化 : 


如 果 所 涉及 的 分 桶 表 都 有 具有 相同 的 分 桶 数 ， 而 且 数 据 是 按照 连接 键 
或 桶 的 键 进行 排序 的 ， 那 么 这 时 Hive 可 以 执行 一 个 更 快 的 分 类 -合并 连 
接 (sort-merge JOIN) 。 同 样 地 ， 这 个 优化 需要 需要 设置 如 下 属性 才能 


启 : 























set hive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat; 
set hive.optimize.bucketmapjoin=true; 





set hive.optimize.bucketmapjoin.sortedmerge=true; 


6.5 ORDER BY 和 SORT BY 


Hive 中 ORDER BY 语句 和 其 他 的 SQL 方言 中 的 定义 是 一 样 的 。 其 会 
对 查询 结果 集 执行 一 个 全 局 排序 。 这 也 就 是 说 会 有 一 个 所 有 的 数据 都 通 
过 一 个 reducer 进 行 处 理 的 过 程 。 对 于 大 数据 集 ， 这 个 过 程 可 能 会 消耗 太 
过 漫长 的 时 间 来 执行 。 


Hive 增 加 了 一 个 可 供 选 择 的 方式 ， 也 就 是 SORT BY， 其 只 会 在 每 个 
reducer 中 对 数据 进行 排序 ， 也 就 是 执行 一 个 局 部 排序 过 程 。 这 可 以 保证 
每 个 reducer 的 输出 数据 都 是 有 序 的 《但 并 非 全 局 有 序 ) 。 这 样 可 以 提高 
后 面 进行 的 全 局 排序 的 效率 。 


对 于 这 两 种 情况 ， 话 法 区 别 仅仅 是 ， 一 个 关键 字 是 ORDER， 另 一 
个 关键 字 是 SORT。 用 户 可 以 指定 任意 期 望 进行 排序 的 字段 ， 并 可 以 在 
字段 后 面 加 上 ASC 关 键 字 (默认 的 ) ， 表 示 按 升序 排序 ， 或 加 DESC 关 
键 字 ， 表 示 按 降序 排序 。 


下 面 是 一 个 使 用 ORDER BY 的 例子 : 























SELECT s.ymd, s.symbol, s.price_close 
FROM stocks s 
ORDER BY s.ymd ASC, s.symbol DESC; 


下 面 是 一 个 类 似 的 例子 ， 不 过 使 用 的 是 SORT BY: 


SELECT s.ymd, s.symbol, s.price_close 
FROM stocks s 
SORT BY s.ymd ASC, s.symbol DESC; 





上 面 介 绍 的 两 个 查询 看 上 去 几乎 一 样 ， 不 过 如 果 使 用 的 reducer 的 个 
数 大 于 1 的 话 ， 那 么 输出 结果 的 排序 束 大 不 一 样 了 。 既 然 只 保证 每 个 
Ra 那么 不 同 reducer 的 输出 束 可 能 会 有 重 登 


因为 ORDER BY 操作 可 能 会 导致 运行 时 间 过 长 ， 如 果 属 性 
hive.mapred.mode 的 值 是 strict 的 话 ， 那 么 Hive 要 求 这 样 的 语句 必须 加 有 
LIMIT 语 名 进行 限制 。 默 认 情 况 下 ， 这 个 属性 的 值 是 nonstrict， 也 就 是 
不 会 有 这 样 的 限制 。 


6.6 含有 SORT BY 的 DISTRIBUTE BY 


DISTRIBUTE BY 控制 map 的 输出 在 reducer 中 是 如 何 划 分 的 。 
MapReduce job 中 传输 的 所 有 数据 都 是 按照 键 - 值 对 的 方式 进行 组 织 的 ， 
因此 Hive 在 将 用 户 的 查询 语句 转换 成 MapReduce job 时 ， 其 必须 在 内 部 
使 用 这 个 功能 。 


通常 ， 用 户 不 需要 担心 这 个 特性 。 不 过 对 于 使 用 了 Streaming 特 性 
(请 参考 第 14 章 内 容 ) 以 及 一 些 状态 为 UDAF (用 户 自 定义 聚合 函数 ， 
参见 第 13.4 节 “聚合 函数 ?中 的 介绍 ) 的 查询 是 个 例外 。 还 有 ， 在 另外 一 
个 场景 下 ， 使 用 这 些 语句 是 有 用 的 。 


默认 情况 下 ，MapReduce 计 算 框 架 会 依据 map 输 入 的 键 计 算 相 应 的 
哈 希 值 ， 然 后 按照 得 到 的 哈 希 值 将 键 - 值 对 均匀 分 发 到 多 个 reducer 中 
去 。 不 过 不 入 的 是 ， 这 也 就 意味 着 当 我 们 使 用 SORT BY 时 ， 不 同 reducer 
的 输出 内 容 会 有 明显 的 重 登 ， 至 少 对 于 排列 顺序 而 言 是 这 样 ， 即 使 每 个 
reducer 的 输出 的 数据 都 是 有 序 的 。 


假设 我 们 希望 具有 相同 股票 交易 码 的 数据 在 一 起 处 理 。 那 么 我 们 可 
以 使 用 DISTRIBUTE BY 来 保证 具有 相同 股票 交易 码 的 记录 会 分 发 到 同 
一 个 reducer 中 进行 处 理 ， 然 后 使 用 SORT BY 来 按照 我 们 的 期 望 对 数据 进 
行 排序 。 如 下 这 个 例子 就 演示 了 这 种 用 法 : 




















hive> SELECT s.ymd, s.symbol, s.price_close 
> FROM stocks s 
> DISTRIBUTE BY s.symbol 
> SORT BY s.symbol ASC, s.ymd ASC; 
1984-09-07 AAPL 26.5 
1984-09-10 AAPL 26.37 
1984-09-11 AAPL 26.87 
1984-09-12 AAPL 26.12 
1984-09-13 AAPL 27.5 
1984-09-14 AAPL 27.87 
1984-09-17 AAPL 28.62 


1984-09-18 AAPL 27.62 
1984-09-19 AAPL 27.0 
1984-09-20 AAPL 27.12 





当然 ， 上 面 例子 中 的 ASC 关 键 字 是 可 以 省 略 挥 的 ， 因 为 其 就 是 缺 省 
值 。 这 里 加 上 了 ASC 关 键 字 的 原因 ， 稍 后 我 们 将 会 进行 简要 的 阐述 。 





DISTRIBUTE BY 和 GROUP BY 在 其 控制 着 reducer 是 如 何 接受 一 行 
行 数据 进行 处 理 这 方面 是 类 似 的 ， 而 SORT BY 则 控制 着 reducer 内 的 数据 
是 如 何 进行 排序 的 。 


需要 注意 的 是 ，Hive 要 求 DISTRIBUTE BY 语句 要 写 在 DORT BY 语 
AJZ AT o 


6.7 CLUSTER BY 


在 前 面 的 例子 中 ，s.symbol 列 被 用 在 了 DISTRIBUTE BY 语句 中 ， 而 
s.Symbol 列 和 s.ymd 位 于 SORT BY 语句 中 。 如 果 这 2 个 语句 中 涉及 到 的 列 
完全 相同 ， 而 且 采 用 的 是 升序 排序 方式 〈 也 就 是 默认 的 排序 方式 ) ， 那 
么 在 这 种 情况 下 ，CLUSTER BY 就 等 价 于 前 面 的 2 个 语句 ， 相 当 于 是 前 
面 2 个 甸子 的 一 个 简写 方式 。 


如 下 面 的 例子 所 示 ， 我 们 将 前 面 的 但 询 语句 中 SORT BY 后 面 的 
s.ymd 字 上 段 去 掉 而 只 对 s.symbol 字 上 段 使 用 CLUSTER BY 语句 : 





hive> SELECT s.ymd, s.symbol, s.price_close 
> FROM stocks s 
> CLUSTER BY s.symbol; 


2010-02-08 AAPL 194.12 
2010-02-05 AAPL 195.46 
2010-02-04 AAPL 192.05 
2010-02-03 AAPL 199.23 
2010-02-02 AAPL 195.86 
2010-02-01 AAPL 194.73 
2010-01-29 AAPL 192.06 
2010-01-28 AAPL 199.29 
2010-01-27 AAPL 207.88 








因此 排序 限制 中 去 除 掉 了 s.ymd 字 段 ， 所 以 输出 中 展示 的 是 股票 数 
据 的 原始 排序 方式 ， 也 就 是 降序 排列 。 


使 用 DISTRIBUTE BY ... SORT BY 语句 或 其 简化 版 的 CLUSTER BY 
BY 的 并 行 性 ， 然 而 这 样 可 以 实现 输出 文件 的 数据 是 全 
局 排序 的 。 


6.8 ”类 型 转换 


在 第 3.1 节 “基本 数据 类 型 ”中 我 们 简要 提 及 了 Hive 会 在 适当 的 时 候 ， 
对 数值 型 数据 类 型 进行 隐 式 类 型 转换 ， 其 关键 字 是 cast。 例 如 ， 对 不 同 
类 型 的 2 个 数值 进行 比较 操作 时 就 会 有 这 种 隐 式 类 型 转换 。 关 于 这 话题 
我 们 在 第 6.2.1 节 “谓词 操作 符 ” 和 第 6.2.2 节 “关于 浮 点 数 比较 ”中 已 经 进行 
了 比较 全 面 的 讨论 。 


这 里 我 们 讨论 下 cast0 函 数 ， 用 户 可 以 使 用 这 个 函数 对 指定 的 值 进 
行 显 式 的 类 型 转换 。 


回想 一 下 ， 前 面 我 们 介绍 过 的 employees 表 中 salary 列 是 使 用 FLOAT 
数据 类 型 的 。 现 在 ， 我 们 假设 这 个 字段 使 用 的 数据 类 型 是 STRING 的 
话 ， 那 么 我 们 如 何 才 能 将 其 作为 FLOAT 值 进行 计算 呢 ? 


如 下 这 个 例子 会 先 将 值 转换 为 FLOAT 类 型 ， 然 后 才 会 执行 数值 大 


小 比较 过 程 : 


SELECT name, salary FROM employees 
WHERE cast(salary AS FLOAT) < 100000.0; 


类 型 转换 函数 的 语法 是 cast(value AS TYPE)。 如 果 例 子 中 的 salary 字 
段 的 值 不 是 合法 的 浮 点 数字 符 串 的 话 ， 那 么 结果 会 怎么 样 呢 ? 这 种 情况 
下 ，Hive 会 返回 NULL。 


需要 注意 的 是 ， 将 浮 点 数 转 换 成 整数 的 推荐 方式 是 使 用 表 6-2 中 列 
举 的 round0) 或 者 floor() 函 数 ， 而 不 是 使 用 类 型 转换 操作 符 cast。 


类 型 转换 BINARY 值 

Hive v0.8.0 版 本 中 新 引入 的 BINARY 类 型 只 支持 将 BINARY 类 型 转 
换 为 STRING 类 型 。 不 过 ， 如 果 用 户 知 道 其 值 是 数值 的 话 ， 那 么 可 以 通 
过 髋 套 cast() 的 方式 对 其 进行 类 型 转换 ， 如 下 面 例子 所 示 ， 其 中 b 字 上 段 类 
型 是 BINARY: 


SELECT (2.0*cast(cast(b as string) as double)) from src; 











用 户 同样 可 以 将 STRING 类 型 转换 为 BINARY 类 型 。 


6.9 ”抽样 查询 
对 于 非常 大 的 数据 集 ， 有 时 用 户 需要 使 用 的 是 一 个 具有 代表 性 的 查 
询 结果 而 不 是 全 部 结果 。Hive 本 以 通过 对 表 进 行 分 栖 折 样 来 满 中 这 个 和 


在 下 面 这 个 例子 中 ， 假 设 numbers 表 只 有 number 字 段 ， 其 值 是 1 到 
10。 





我 们 可 以 使 用 rand0 函 数 进行 抽样 ， 这 个 函数 会 返回 一 个 随机 值 。 
前 两 个 查询 都 返回 了 两 个 不 相等 的 值 ， 而 第 3 个 查询 语句 无 返回 结果 : 


hive> SELECT * from numbers TABLESAMPLE(BUCKET 3 OUT OF 10 ON rand()) s; 
2 


4 


hive> SELECT * from numbers TABLESAMPLE(BUCKET 3 OUT OF 10 ON rand()) s; 
7 


10 





hive> SELECT * from numbers TABLESAMPLE(BUCKET 3 OUT OF 10 ON rand()) s; 


如 果 我 们 是 按照 指定 的 列 而 非 rand0 函 数 进行 分 桶 的 话 ， 那 么 同一 
语句 多 次 执行 的 返回 值 是 相同 的 : 
hive> SELECT * from numbers TABLESAMPLE(BUCKET 3 OUT OF 10 ON number) s; 
2 
hive> SELECT * from numbers TABLESAMPLE(BUCKET 5 OUT OF 10 ON number) s; 
4 


hive> SELECT * from numbers TABLESAMPLE(BUCKET 3 OUT OF 10 ON number) s; 
2 











分 桶 语句 中 的 分 母 表示 的 是 数据 将 会 被 散 列 的 桶 的 个 数 ， 而 分 子 表 
示 将 会 选择 的 桶 的 个 数 : 





hive> SELECT * from numbers TABLESAMPLE(BUCKET 1 OUT OF 2 ON number) s; 


10 


hive> SELECT * from numbers TABLESAMPLE(BUCKET 2 OUT OF 2 ON number) s; 
1 


3 
5 
7 
9 


6.9.1 数据 块 抽样 


Hive 提 供 了 另外 一 种 按照 抽样 百分比 进行 抽样 的 方式 ， 这 种 是 基于 
行 数 的 ， 按 照 输 入 路 径 下 的 数据 块 百分比 进行 的 抽样 : 


hive> SELECT * FROM numbersflat TABLESAMPLE(0.1 PERCENT) s; 





w a, 
ga 
“8 ”提示 


这 种 抽样 方式 不 一 定 适用 于 所 有 的 文件 格式 。 为 外 ， 这 种 抽样 
的 最 小 抽样 单元 是 一 个 HDFS 数 据 卖 。 因 此 ， 如 果 表 的 数据 大 小 小 
于 普通 的 块 大 小 128MB 的 话 ， 那 么 将 会 返回 所 有 行 。 


基于 百分比 的 抽样 方式 提供 了 一 个 变量 ， 用 于 控制 基于 数据 块 的 调 
优 的 种 子 信息 : 





<property> 
<name>hive.sample.seednumber</name> 
<value>0</value> 


<description>A number used for percentage sampling. By changing this 
number, user will change the subsets of data sampled.</description> 
</property> 


6.9.2 Ad HA MFT A RBY 


从 第 一 次 看 TABLESAMPLE 语 句 ， 精 明 的 用 户 可 能 会 得 出 “如 下 的 
查询 和 TABLESAMPLE 操 作 相 同 ” 的 结论 : 





hive> SELECT * FROM numbersflat WHERE number % 2 = 0; 
2 





对 于 大 多 数 关 型 的 表 确 实 是 这 样 的。 抽样 会 扫描 表 中 所 有 的 数据 ， 


然后 在 每 N 行 中 抽取 一 行 数据 。 不 过 ， 如 果 TABLESAMPLE 语 句 中 指定 
的 列 和 CLUSTERED BY 语句 中 指定 的 列 相 同 ， 那 么 TABLESAMPLE 碍 
询 就 只 会 扫描 涉及 到 的 表 的 哈 斯 分 区 下 的 数据 : 





hive> CREATE TABLE numbers_bucketed (number int) CLUSTERED BY (number) INTO 3 BUCKETS 


了 
hive> SET hive.enforce.bucketing=true; 


hive> INSERT OVERWRITE TABLE numbers_bucketed SELECT number FROM numbers; 


hive> dfs -ls /user/hive/warehouse/mydb.db/numbers_bucketed; 


/user/hive/warehouse/mydb.db/numbers_bucketed/000000_0 
/user/hive/warehouse/mydb.db/numbers_bucketed/000001_0 
/user/hive/warehouse/mydb.db/numbers_bucketed/000002_0 
hive> dfs -cat /user/hive/warehouse/mydb.db/numbers_bucketed/000001_0; 








因为 这 个 表 已 经 聚集 成 3 个 数据 桶 了 ， 下 面 的 这 个 查询 可 以 高 效 地 
仅 对 其 中 一 个 数据 桶 进行 抽样 : 


hive> SELECT * FROM numbers_bucketed TABLESAMPLE (BUCKET 2 OUT OF 3 ON NUMBER) s; 
1 


7 
10 
4 





6.10 UNION ALL 


UNION ALL 可 以 将 2 个 或 多 个 表 进 行 合 并 。 每 一 个 union 子 查询 都 必 
需 具 有 相同 的 列 ， 而 且 对 应 的 每 个 字段 的 字段 类 型 必须 是 一 致 的 。 例 
如 ， 如 果 第 2 个 字段 是 FLOAT 类 型 的 ， 那 么 所 有 其 他 子 查 询 的 第 2 个 字 
段 必 须 都 是 FLOAT 类 型 的 。 


下 面 是 个 将 日 志 数 据 进行 合并 的 例子 : 











SELECT log.ymd, log.level, log.message 
FROM ( 
SELECT 11.ymd, 11.level, 
1li.message, 'Logi' AS source 
FROM log1 14 
UNION ALL 


SELECT 12.ymd, 12.level, 
12.message, 'Log2' AS source 
FROM log1 12 
) log 
SORT BY log.ymd ASC; 





UNION 也 可 用 于 同一 个 源 表 的 数据 合并 。 从 逻辑 上 讲 ， 可 以 使 用 
一 个 SELECT 和 WHERE 语 句 来 获得 相同 的 结果 。 这 个 技术 便于 将 一 个 
长 的 复杂 的 WHERE 语句 分 割 成 2 个 或 多 个 UNION 子 碍 询 。 不 过 ， 除 非 
aren 索引 ， 否 则 ， 这 个 查询 将 会 对 同一 份 源 数 据 进行 多 次 找 贝 分 
之 。 例 如: 


FROM ( 
FROM src SELECT src.key, src.value WHERE src.key < 100 
UNION ALL 
FROM src SELECT src.* WHERE src.key > 110 











) unioninput 
INSERT OVERWRITE DIRECTORY '/tmp/union.out' SELECT unioninput. * 





[1] 在 撰写 本 文 时 ，Hive Wiki 中 展示 了 一 个 不 正确 的 语法 来 通过 正则 表 
达 式 指定 列 。 


537%: HiveQL: 4B] 


视图 可 以 允许 保存 一 个 查询 并 像 对 待 表 一 样 对 这 个 查询 进行 操作 。 
这 是 一 个 逻辑 结构 ， 因 为 它 不 像 一 个 表 会 存储 数据 。 换 句 话 说 ，Hive 目 
前 暂 不 文 持 物 化 视图 。 


当 一 个 碍 询 引 用 一 个 视图 时 ， 这 个 视图 所 定义 的 碍 询 语 句 将 和 用 户 
的 查询 语句 组 合 在 一 起 ， 然 后 供 Hive 制 定 查 询 计划 。 从 逻辑 上 讲 ， 可 以 
想象 为 Hive 先 执行 这 个 视图 ， 然 后 使 用 这 个 结果 进行 余下 后 续 的 售 询 。 








7.1 使 用 视图 来 降低 但 询 复 杂记 


当 碍 询 变 得 长 或 复杂 的 时 候 ， 通 过 使 用 视图 将 这 个 查询 语句 分 割 成 
多 个 小 的 、 更 可 控 的 片段 可 以 降低 这 种 复杂 度 。 这 点 和 在 编程 语言 中 使 
用 函数 或 者 软件 设计 中 的 分 层 设 计 的 概念 是 一 致 的 。 封 装 复杂 的 部 分 可 
以 是 最 终 用 户 通 过 重用 重复 的 部 分 来 构建 复杂 的 得 询 。 例 如 ， 如 下 是 一 
个 具有 藤 套 子 碍 询 的 查询: 














FROM ( 
SELECT * FROM people JOIN cart 


ON (cart.people_id=people.id) WHERE firstname='john' 
) a SELECT a.lastname WHERE a.id=3; 


Hive Wie) HRA nik Bek it fs LA. FE RR PI, 
HRS YF BR ae AE: 


CREATE VIEW shorter_join AS 
SELECT * FROM people JOIN cart 














ON (cart.people_id=people.id) WHERE firstname='john'; 


现在 就 可 以 像 操 作 表 一 样 来 操作 这 个 视图 了 。 本 次 的 查询 语句 中 我 
们 为 SELECT 语句 增加 了 一 个 WHERE 子 句 ， 这 样 就 大 大 简化 了 之 前 的 
那个 查询 语句 : 


SELECT lastname FROM shorter_join WHERE id=3; 


7.2 ”使 用 视图 来 限制 基于 条 件 过 滤 的 数据 


对 于 视图 来 说 一 个 和 常见 的 使 用 场景 瑟 是 基于 一 个 或 多 个 列 的 值 来 限 
制 输出 结果 。 有 些 数据 库 允许 将 视图 作为 一 个 安全 机 制 ， 也 束 是 不 给 用 
户 直 接 访问 具有 敏感 数据 的 原始 表 ， 而 是 提供 给 用 户 一 个 通过 WHERE 
子 句 限制 了 的 视图 ， 以 供 访问 。Hive 目 前 并 不 支持 这 个 功能 ， 因 为 用 户 
必须 具有 能 够 访问 整个 底层 原始 表 的 权限 ， 这 时 视图 才能 工作 。 然 而 ， 
通过 创建 视图 来 限制 数据 访问 可 以 用 来 保护 信息 不 被 随意 查询 : 














hive> CREATE TABLE userinfo ( 
> firstname string, lastname string, ssn string, password string); 


hive> CREATE VIEW safer_user_info AS 
> SELECT firstname, lastname FROM userinfo; 








如 下 是 通过 WHERE 子 句 限制 数据 访问 的 视图 的 另 一 个 例子 。 在 这 
种 情况 下， 我们 硕 户 提供 一 个 员工 表 视 图 ， 只 坎 露 来 日 特定 部 门 的 员工 


Bum: 








hive> CREATE TABLE employee (firstname string, lastname string, 
> ssn string, password string, department string); 


hive> CREATE VIEW techops_employee AS 
> SELECT firstname, lastname,ssn FROM userinfo WHERE department='techops'; 





7.3 动态 分 区 中 的 视图 和 map 类 型 


记得 在 第 3 章 我 们 就 介绍 过 Hive 支 持 array、map 和 struct 数 据 类 型 。 
这 些 数 据 类 型 在 传统 数据 库 中 并 不 常见 ， 因 为 它们 破坏 了 第 一 范式 。 
Hive 可 将 一 行文 本 作为 一 个 map 而 非 一 组 固定 的 列 的 能 力 ， 加 上 视图 功 
能 ， 就 允许 用 户 可 以 基于 同一 个 物理 表 构 建 多 个 逻辑 表 。 


思考 下 面 这 个 示例 文件 。 其 将 整 行 作为 一 个 map 人 处 理 ， 而 不 是 一 列 
固定 的 列 。 这 里 没有 使 用 Hive 的 默认 分 隅 符 ， 这 个 文件 使 用 AA(Control 
+A) 作为 集合 内 元 素 间 的 分 隅 符 〈 例 如 ， 本 例 中 map 的 多 个 键 - 值 对 之 间 
的 分 隔 符 ) ， 然 后 使 用 AB (Control + B) 作为 map 中 的 键 和 值 之 间 的 分 
隅 符 。 因 为 这 条 记录 较 长 ， 所 以 为 了 更 清晰 地 表达 ， 我 们 人 为 地 增加 了 


PIA, 
: 


EAT: 


time^B1298598398404^Atype^Brequest^Astate^Bny^Acity^Bwhite 
plains^Apart\^Bmuffler 


time^B1298598398432^Atype^Bresponse^Astate^Bny^Acity^Btarrytown^ 


Apart\^Bmuffler 


time^B1298598399404^Atype^Brequest^Astate^Btx^Acity^Baustin^ 
Apart^Bheadlight 


下 面 我 们 来 创建 表 : 


CREATE EXTERNAL TABLE dynamictable(cols map<string, string>) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\004' 





COLLECTION ITEMS TERMINATED BY '\001' 
MAP KEYS TERMINATED BY '\002' 
STORED AS TEXTFILE,; 








上 面 的 例子 中 ， 因 为 每 行 只 有 一 个 字段 ， 因 此 FIELDS 
TERMINATED BY 语句 所 指定 的 分 隔 符 实 际 上 没有 任何 影响 。 


现在 我 们 可 以 创建 这 样 一 个 视图 ， 其 仪 取出 type 值 等 于 request 的 
city. state 和 part 3 个 字段 ， 并 将 视图 命名 为 orders。 视 图 orders 具 有 3 个 字 
Bt: state. city#lpart. 





CREATE VIEW orders(state, city, part) AS 
SELECT cols["state"], cols["city"], cols["part"] 
FROM dynamictable 


WHERE cols["type"] = "request"; 


我 们 创建 的 第 2 个 视图 名 为 shipments。 这 个 视图 返回 time 和 part 2 个 
字段 作为 列 ， 限 制 条 件 是 type 的 值 为 response: 


CREATE VIEW shipments(time, part) AS 
SELECT cols["time"], cols["parts"] 


FROM dynamictable 
WHERE cols["type"] = "response"; 








关于 这 个 特性 的 另 一 个 例子 ， 请 碍 看 下 如 下 链 
接 : http://dev.bizo.com/2011/02/columns-in-hive.html#!/2011/02/columns- 
in-hive.html. 





7.4 视图 零 堆 碎 人 碎 相 关 的 事情 


我 们 说 过 ，Hive 会 完 解析 视图 ， 然 后 使 用 解析 结果 再 来 解析 整个 钥 
询 语句 。 然 而 ， 作 为 Hive 碍 询 优化 器 的 一 部 分 ， 碍 询 语句 和 视图 语句 可 
能 会 合并 成 一 个 单一 的 实际 碍 询 语句 。 


然而 ， 这 个 概念 视图 仍然 适用 于 视图 和 使 用 这 个 视图 的 查询 语句 都 
包含 了 一 个 ORDER BY 子 句 或 一 个 LIMIT 子 句 的 情况 。 这 时 会 在 使 用 这 
个 视图 的 查询 语句 之 前 对 该 视图 进行 解析 。 


例如 ， 如 果 视 图 语句 含有 一 个 LIMIT 100 子 句 ， 而 同时 使 用 到 这 个 
视图 的 查询 含有 一 个 LIMIT 200 子 句 ， 那 么 用 户 最 终 最 多 只 能 获取 100 条 
结果 记录 。 


因为 定义 一 个 视图 实际 上 并 不 会 “具体 化 ”操作 任何 实际 数据 ， 所 以 
视图 实际 上 是 对 其 所 使 用 到 的 表 和 列 的 一 个 查询 语句 固化 过 程 。 因 此 ， 
如 末 视 图 所 涉及 的 表 或 者 列 不 再 存在 时 ， 会 导致 视图 合 询 失败 。 


创建 视图 时 用 户 还 可 以 使 用 其 他 一 些 子 句 。 如 下 例子 修改 了 我 们 前 
面 那个 例子 : 

















CREATE VIEW IF NOT EXISTS shipments(time, part) 
COMMENT 'Time and parts for shipments. ' 


TBLPROPERTIES ('creator' = 'me') 
AS SELECT ...,; 





对 于 表 来 说 ，IF NOT EXISTS 和 COMMENT... 子 句 是 可 选 的 ， 而 
且 和 表 创 建 语 句 具 有 相同 的 含义 。 


一 个 视图 的 名 称 要 和 这 个 视图 所 在 的 数据 库 下 的 其 他 所 有 表 和 视图 
的 名 称 不 同 。 


用 户 还 可 以 为 所 有 的 新 列 或 部 分 新 列 增加 一 个 COMMNET 子 句 ， 进 
行 写 注释 。 这 些 注释 并 非 “继承 ”原始 表 中 的 定义 。 


同样 地 ， 如 果 AS SELECT 子 句 中 包含 没有 命名 别名 的 表达 式 的 话 ， 
例如 size(cols)( 计 算 cols 中 元 素 的 个 数 )， 那 么 Hive 将 会 使 用 _CN 作 为 新 的 
列 名 ， 其 中 N 表 示 从 0 开始 的 一 个 整数 。 如 果 AS SELECT 语句 不 合法 的 





话 ， 那 么 创建 视图 过 程 将 失败 。 

在 AS SELECT 子 句 之 前 ， 用 户 可 以 通过 定义 TBLPROPERTIES 来 定 
义 表 属性 信息 ， 这 点 和 表 相 同 。 上 例 中 ， 我 们 定义 的 属性 为 “creator”， 
表示 这 个 视图 的 创建 者 名 称 。 


第 4.3 节 “创建 表 ” 中 讨论 过 的 CREATE TABLE ... LIKE ... 结 构 同 样 
适用 于 复制 视图 ， 只 需要 在 LIKE 表 达 式 里 面 写 视 图 名 就 可 以 了 : 


CREATE TABLE shipments2 
LIKE shipments; 


用 户 也 可 以 像 以 前 一 样 选择 性 使 用 EXTERNAL 关 键 字 和 
LOCATION... 子 句 。 





a 
SS «x 

对 于 Hive v0.8.0 版 本 和 这 个 版 本 前 的 其 他 版 本 来 说 ， 这 个 语句 
的 行为 是 不 同 的 。 对 于 v0.8.0 版 本 ， 这 个 命令 会 创建 一 个 新 的 表 ， 
而 不 是 一 个 新 的 视图 ， 同 时 使 用 默认 的 SerDe 方 式 和 文件 格式 。 而 
对 于 之 前 的 早期 版 本 来 说 ， 会 创建 一 个 新 的 视图 。 


删除 视图 的 方式 和 删除 表 的 方式 类 似 : 
和 往常 一 样 ， 上 面 例子 中 的 下 EXISTS 语 句 是 可 选 的 。 


通过 SHOW TABLES 语 句 (没有 SHOW VIEWS 这 样 的 语句 ) 同样 
可 以 查看 到 视图 ， 但 是 不 能 使 用 DROP TABLE 语 名 来 删除 视图 。 


和 表 一 样 ，DESCRIBE 和 DESCRIBE EXTENDED 语句 可 以 显示 视 
图 的 元 数据 信息 。 如 果 使 用 后 面 那个 命令 ， 输 出 信息 中 的 “Detailed 
Table Information” 部 分 会 有 一 个 tableType 字 段 ， 字 上 段 值 显示 的 
是 “VIRTUAL _VIEW”。 


视图 不 能 够 作为 INSERT 语 句 或 LOAD 命 令 的 目标 表 。 

















最 后 要 说 明 的 是 ， 视 图 是 只 读 的 。 对 于 视图 只 允许 改变 元 数据 中 
TBLPROPERTIES 属 性 信息 : 


ALTER VIEW shipments SET TBLPROPERTIES ('created_at' = 'some_timestamp'); 


第 8 章 HiveQL: 索引 


Hive 只 有 有 限 的 索引 功能 。Hive 中 没有 普通 关系 型 数据 库 中 键 的 概 
念 ， 但 是 还 是 可 以 对 一 些 字 段 建立 索引 来 加 速 茶 些 操 作 的 。 一 张 表 的 过 
引 数 据 存 储 在 另外 一 张 表 中 。 


同时 ， 因 为 这 是 一 个 相对 比较 新 的 功能 ， 所 以 目前 还 没有 提供 很 多 
的 选择 。 然 而 ， 索 引 处 理 模块 被 设计 成 为 可 以 定制 的 Java 编 码 的 插件 ， 
因此 ， 用 户 可 以 根据 需要 对 其 进行 实现 ， 以 满足 目 壬 的 需求 。 


当 人 逻 辑 分 区 实际 上 太 多 太 细 而 几乎 无 法 使 用 时 ， 建 并 索引 也 就 成 为 
分 区 的 妨 一 个 选择 。 建 立 索 引 可 以 帮助 裁 鸡 掉 一 张 表 的 一 些 数 据 块 ， 这 
样 能 够 减少 MapReduce 的 输入 数据 量 。 并 非 所 有 的 查询 都 可 以 通过 建立 
i R 
索引 。 


Hive 中 的 索引 和 那些 关系 型 数据 库 中 的 一 样 ， 需 要 进行 仔细 评估 才 
能 使 用 。 维 护 索引 也 需要 额外 的 存储 空间 ， 同 时 创建 索引 也 需要 消耗 计 
算 资 源 。 用 户 需 要 在 建立 索引 为 查询 带 来 的 好 处 和 因此 而 需要 付出 的 代 
价 之 间 做 出 权衡 。 






































8.1 创建 索引 


现在 我 们 来 为 我 们 在 第 56 页 “分 区 表 、 管 理 表 ?章节 讲述 过 的 管理 分 
区 表 中 的 employees 表 建立 一 个 索引 。 下 面 这 段 是 我 们 之 前 的 表 定 义 语 
a, ENSK: 





CREATE TABLE employees ( 
name STRING, 
salary FLOAT, 
subordinates ARRAY<STRING>, 


deductions MAP<STRING, FLOAT>, 
address STRUCT<street:STRING, city:STRING, state:STRING, zip: INT> 


) 
PARTITIONED BY (country STRING, state STRING); 





下 面 我 们 仅 对 分 区 字段 country 建 立 索引 : 


CREATE INDEX employees_index 

ON TABLE employees (country) 

AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler ' 
WITH DEFERRED REBUILD 

IDXPROPERTIES ('creator = 'me', 'created_at' = 'some_time') 


IN TABLE employees_index_table 
PARTITIONED BY (country, name) 
COMMENT ‘Employees indexed by country and name.'; 








在 这 种 情况 下 ， 我 们 没有 像 原 表 那 样 对 索引 表 进 行 同 一 粒度 的 分 区 
划分 。 甚 实 我 们 是 可 以 那么 做 的 。 如 果 我 们 完全 省 略 掉 PARTITIONED 
BY 语句 的 话 ， 那 么 索引 将 会 包含 原始 表 的 所 有 分 区 。 


AS ... 语 句 指 定 了 索引 处 理 器 ， 也 就 是 一 个 实现 了 索引 接口 的 Java 
类 。Hive 本 身 包含 了 一 些 典 型 的 索引 实现 。 这 里 所 展示 的 
CompactIndexHandler 就 是 其 中 的 一 个 实现 。 可 以 通过 第 三 方 的 实现 来 最 
优化 地 处 理 特定 的 场景 ， 文 持 特定 的 文件 格式 ， 等 等 。 在 第 121 页 的 “ 实 
现 一 个 定制 化 的 索引 处 理 器 * 章 市 ， 我 们 将 对 如 何 实现 一 个 用 户 定 制 的 
索引 处 理 器 进行 详细 的 说 明 。 


下 一 节 我 们 将 讨论 WITH DEFERRED REBUILD 这 个 子 句 的 含义 。 
并 非 一 定 要 求索 引 处 理 器 在 一 张 新 表 中 保留 索引 数据 ， 但 是 如 果 需 


要 的 话 ， 会 使 用 到 IN TABLE ... 子 句 。 这 个 句 式 提供 了 和 创建 其 他 类 型 
表 一 样 的 很 多 功能 。 特 别 地 ， 例 子 中 没有 使 用 到 ROW FORMAT, 

















STORED AS、STORED BY、LOCATION 等 我 们 在 第 4 章 所 讨论 过 的 选 
项 。 这 些 其 实 都 是 可 以 在 最 后 的 COMMENT 语 句 前 增加 的 。 


目前 ， 除 了 S3 中 的 数据 ， 对 外 部 表 和 视图 部 是 可 以 建立 索引 的 。 





Bitmap% 5| 


Hive v0.8.0 版 本 中 新 增 了 一 个 内 置 bitmap 索 引 处 理工。bitmap 索 引 
普 遇 应 用 于 排 重 后 值 较 少 的 列 。 下 面 是 对 前 面 的 例子 使 用 bitmap 索 引 处 
理 器 重 写 后 的 语句 : 





CREATE INDEX employees_index 
ON TABLE employees (country) 
AS 'BITMAP' 

WITH DEFERRED REBUILD 


IDXPROPERTIES ('creator' = 'me', 'created_at' = 'some_time') 
IN TABLE employees_index_table 

PARTITIONED BY (country, name) 

COMMENT ‘Employees indexed by country and name.'; 





8.2 重建 索引 


如 果 用 户 指 定 了 DEFERRED REBUILD, WARRI KEME HJR 
态 。 在 任何 时 候 ， 都 可 以 进行 第 一 次 索引 创建 或 者 使 用 ALTER INDEX 
对 索引 进行 重建 : 


ALTER INDEX employees_index 
ON TABLE employees 
PARTITION (country = 'US') 
REBUILD; 


如 果 省 略 挥 PARTITION， 那 么 将 会 对 所 有 分 区 进行 重建 索引 。 


还 没有 一 个 内 置 的 机 制 能 够 在 底层 的 表 或 者 某 个 特定 的 分 区 发 生 改 
变 时 ， 自 动 触发 重建 索引 。 但 是 ， 如 果 用 户 具 有 一 个 工作 流 来 更 新 表 分 
区 中 的 数据 的 话 ， 那 么 用 户 可 能 已 经 在 其 中 某 处 使 用 到 了 第 69 页 “众多 
的 Alter Table 语 名 ”章节 中 所 说 明 的 ALTER TABLE ... TOUCH 
PARTITION(...) 功 能 ， 同 样 地 ， 在 这 个 工作 流 中 也 可 以 对 对 应 的 索引 执 
行 重建 索引 语句 ALTER INDEX ... REBUILD. 


如 采 重 建 索 引 失 败 ， 那 么 在 重建 开始 之 前 ， 索 引 将 俘 留 在 之 前 的 版 
本 状态 。 从 这 种 意义 上 看 ， 重 建 索引 操作 是 原子 性 的 。 











8.3 ”显示 索引 
下 面 这 个 命令 将 显示 对 于 这 个 索引 表 对 所 有 列 所 建立 的 索引 : 


关键 字 FORMATTED 是 可 选 的 。 增 加 这 个 关键 字 可 以 使 输出 中 包含 
有 列 名 称 。 用 户 还 可 以 替换 INDEX 为 INDEXES， 这 样 输出 中 就 可 以 列 
BS PSAS EE I 











8.4 删除 索引 
如 果 有 索引 表 的 话 ， 删 除 一 个 索引 将 会 删除 这 个 索引 表 : 


Hive 不 允许 用 户 直接 使 用 DROP TABLE 语 句 之 前 删除 索引 表 。 而 通 
常情 况 下 ，IF EXISTS 都 是 可 选 的 ， 其 用 于 当 索 引 不 存在 时 避免 抛 出 错 


误 信息 。 


如 果 被 索引 的 表 被 删除 了 ， 那 么 其 对 应 的 索引 和 索引 表 也 会 被 删 
除 。 同 样 地 ， 如 采 原 始 表 的 菏 个 分 区 被 删除 了 ， 那 么 这 个 分 区 对 应 的 分 
区 索引 也 同时 会 被 删除 掉 。 





8.5 ”实现 一 个 定制 化 的 索引 处 理 需 


在 Hive Wiki 页 面具 有 实现 一 个 定制 化 的 索引 处 理 右 的 完整 的 例子 ， 
链接 
Je https://cwiki.apache.org/confluence/display/Hive/IndexDev#CREATE_INI 
其 中 还 包含 了 索引 的 初步 设计 文档 。 当 然 ， 用 户 也 是 可 以 使 用 
org.apache.hadoop.hive.ql.index. 


compact.CompactIndexHandler 中 的 源 代 码 作 为 例子 来 学 习 的 。 


创建 好 索引 后 ， 实 现 索 引 人 处 理 占 的 Java 代 码 中 也 要 做 一 些 初始 验证 
和 为 索引 表 〈 如 果 使 用 到 索引 表 的 话 〉 定义 模式 的 过 程 。 同 时 还 要 实现 
重建 索引 处 理 逻 辑 ， 其 会 读 取 需 要 创建 索引 的 表 ， 然 后 写 索 引 存 储 《〈 例 
如 索引 表 ) 。 但 索引 被 删除 后 ， 处 理 器 还 需要 清理 掉 所 有 为 索引 所 使 用 
到 的 非 表 存 储 。 如 果 需 要 ， 还 要 依赖 Hive 去 删除 索引 表 。 处 理 器 必须 能 
够 参与 到 优化 查询 中 。 





HIE ”模式 设计 


Hive 看 上 去 以 及 实际 行为 都 像 一 个 关系 型 数据 库 。 用 户 对 如 表 和 列 
这 类 术语 比较 熟悉 ， 而 且 Hive 提 供 的 查询 语言 和 用 户 之 前 使 用 过 的 SQL 
方言 非常 地 相似 。 不 过 ，Hive 实 现 和 使 用 的 方式 和 传统 的 关系 型 数据 库 
古 非 常 不 同 的 。 通 第 ， 用 户 视 图 移植 关系 型 数据 库 中 的 模式 ， 而 事实 上 
Hive 是 反 模式 的 。 本 章 将 重点 介绍 Hive 中 哪些 模式 是 用 户 应 该 使 用 的 ， 
而 又 有 哪些 反 模 式 是 应 该 避免 使 用 的 。 











9.1 按 天 划分 的 表 


按 天 划分 表 就 是 一 种 模式 ， 其 通常 会 在 表 名 中 加 入 一 个 时 间 惟 ， 例 
如 表 名 为 upply_2011_01_01、supply_2011_01_02， 等 等 。 这 种 每 天 一 张 
表 的 方式 在 数据 库 领 域 是 反 模 式 的 一 种 方式 ， 但 是 因为 实际 情况 下 数据 
集 增 长 得 很 快 ， 这 种 方式 应 用 还 是 比较 广泛 的 。 








hive> CREATE TABLE supply_2011_01_02 (id int, part string, quantity int); 


hive> CREATE TABLE supply_2011_01_03 (id int, part string, quantity int); 


hive> CREATE TABLE supply_2011_01_04 (id int, part string, quantity int); 


hive> .... load data ... 


hive> SELECT part,quantity supply _2011_01 02 
> UNION ALL 
> SELECT part,quantity from supply_2011_01_03 
> WHERE quantity < 4; 





对 于 Hive， 这 种 情况 下 应 该 使 用 分 区 表 。Hive 通 过 WHERE 子 句 中 
的 表达 式 来 选择 查询 所 需要 的 指定 的 分 区 。 这 样 的 查询 执行 效率 高 ， 而 
且 看 起 来 清晰 明了 : 








hive> CREATE TABLE supply (id int, part string, quantity int) 
> PARTITIONED BY (int day); 


hive> ALTER TABLE supply add PARTITION (day=20110102); 


hive> ALTER TABLE supply add PARTITION (day=20110103) ; 


hive> ALTER TABLE supply add PARTITION (day=20110102) ; 


hive> .... load data ... 


hive> SELECT part,quantity FROM supply 
> WHERE day>=20110102 AND day<20110103 AND quantity 





92 -天 分 区 


Hive 中 分 区 的 功能 是 非常 有 用 的 。 这 是 因为 Hive 通 第 要 对 输入 进行 
全 盘 扫 描 ， 来 满足 三 询 条 件 〈 这 里 我 们 先 忽 略 掉 Hive 的 索引 功能 ) 。 通 
过 创建 很 多 的 分 区 确实 可 以 优化 一 些 人 查询 ， 但 是 同时 可 能 会 对 其 他 一 些 
重要 的 查询 不 利 : 


hive> CREATE TABLE weblogs (url string, time long ) 
> PARTITIONED BY (day int, state string, city string); 


hive> SELECT * FROM weblogs WHERE day=20110102; 


HDFS 用 于 设计 存储 数 百 万 的 大 文件 ， 而 非 数 十 亿 的 小 文件 。 使 用 








过 多 分 区 可 能 导致 的 一 个 问题 就 是 会 创建 大 量 的 非 必 须 的 Hadoop 文 件 和 
文件 夹 。 一 个 分 区 就 对 应 着 一 个 包含 有 多 个 文件 的 文件 来。 如 果 指 定 的 
表 存 在 数 百 个 分 区 ， 那 么 可 能 每 天 都 会 创建 好 几 万 个 文件 。 如 果 保 持 
这 样 的 表 很 多 年 ， 那 么 最 终 就 会 超出 NameNode 对 系统 云 数 据 信 息 的 处 
理 能 力 。 因 为 NameNode 必 须要 将 所 有 的 系统 文件 的 元 数据 信息 保存 在 
内 存 中 。 虽 然 每 个 文件 只 需要 少量 字 节 大 小 的 元 数据 《〈 大 约 是 150 字 节 / 
文件 ) ， 但 是 这 样 也 会 限制 一 个 HDFS 实 例 所 能 管理 的 文件 总 数 的 上 
限 。 而 其 他 的 文件 系统 ， 比 如 MapR 和 Amazon S3 就 没有 这 个 限制 。 


MapReduce 会 将 一 个 任务 (job) 转换 成 多 个 任务 Cask) 。 默 认 情 
况 下 ， 每 个 task 都 是 一 个 新 的 JVM 实 例 ， 都 需要 开启 和 销毁 的 开销 。 对 
于 小 文件 ， 每 个 文件 都 会 对 应 一 个 task。 在 一 些 情况 下 ，JVM 开 局 和 销 
毁 的 时 间 中 销毁 可 能 会 比 实际 处 理 数据 的 时 间 消 耗 要 长 ! 


因此 ， 一 个 理想 的 分 区 方案 不 应 该 导致 产生 太 多 的 分 区 和 文件 夹 目 
Sk SEEN ARSC RAMA, MARRARA 
若干 倍 。 


按时 间 范 围 进 行 分 区 的 一 个 好 的 策略 就 是 按照 不 同 的 时 间 粒 度 来 确 
定 合适 大 小 的 数据 积累 量 ， 而 且 安 装 这 个 时 间 粒 度 。 随 着 时 间 的 推移 ， 
分 区 数量 的 增长 是 “均匀 的 "， 而 且 每 个 分 区 下 包含 的 文件 大 小 至 少 是 文 
件 系统 中 块 的 大 小 或 块 大 小 的 数 倍 。 这 个 平衡 可 以 保持 使 分 区 足够 大 ， 
从 而 优化 一 般 情况 下 查询 的 数据 吞吐 量 。 同 时 有 必要 考虑 这 种 粒度 级 别 
在 未 来 是 否 是 适用 的 ， 特 别 是 查询 中 WHERE 子 句 选择 较 小 粒度 的 范 



































hive> CREATE TABLE weblogs (url string, time long, state string, city string ) 


> PARTITIONED BY (day int); 
hive> SELECT * FROM weblogs WHERE day=20110102; 





Fy RTT Re NE PT Bal FY ad DX FP AEA AS TI EE. Bl 
如 ， 第 一 个 分 区 可 能 是 按照 天 (day) 进 行 划分 的 ， 而 二 级 分 区 可 能 通过 如 
州 名 Cstate) 这 样 的 地 理 区 域 进 行 划分 : 


hive> CREATE TABLE weblogs (url string, time long, city string ) 


> PARTITIONED BY (day int, state string); 
hive> SELECT * FROM weblogs WHERE day=20110102; 





然而 ， 由 于 一 些 州 可 能 会 比 其 他 州 具 有 更 多 的 数据 ， 用 户 可 能 会 发 
现 map task 处 理 数 据 时 会 出 现 不 均 ， 这 是 因为 处 理 数 据 量 多 的 州 需要 比 
处 理 数据 量 小 的 州 要 消耗 更 多 的 时 间 。 


如 果 用 户 不 能 够 找到 好 的 、 大 小 相对 合适 的 分 区 方式 的 话 ， 那 么 可 
以 考虑 使 用 第 9.6 闻 “分 桶 表 数 据 存储 ”中 介绍 的 分 桶 存储 。 


9.3 ”唯一 键 和 标准 化 


关系 型 数据 库 通 向 使 用 唯一 键 、 索 引 和 标准 化 来 存储 数据 集 ， 通 种 
是 全 部 或 者 大 部 分 存储 到 内 存 的 。 然 而 ，Hive 没 有 主键 或 基于 序列 密 钥 
生成 的 上 自 增 键 的 概念 。 如 果 可 以 的 话 ， 应 避免 对 非 标准 化 数据 进行 连接 
(JOIN) 操作 。 复 杂 的 数据 类 型 ， 如 array、map 和 struct， 有 助 于 实现 在 
单行 中 存储 一 对 多 数据 。 这 并 不 是 说 不 应 该 进行 标准 化 ， 但 是 星 形 染 构 
类 型 设计 并 非 最 优 的 。 


避免 标准 化 的 主要 的 原因 古 为 了 最 小 化 磁盘 寻 道 ， 比 如 那些 通常 需 
要 外 键 关系 的 情况 。 非 标准 化 数据 允许 被 扫描 或 写 入 到 大 的 、 连 续 的 磁 
盘存 储 区 域 ， 从 而 优化 磁盘 张 动 器 的 I/ O 性 能 。 然 而 ， 非 标准 化 数据 可 
能 导致 数据 重复 ， 而 且 有 更 大 的 导致 数据 不 一 致 的 风险 。 


例如 ， 思 考 下 我 们 的 运行 示例 员工 (employees) 表 。 为 了 清晰 地 
表述 ， 这 里 再 次 做 了 一 些 修改 : 























CREATE TABLE employees ( 
name 

salary i 
subordinates ARRAY<STRING>, 


deductions MAP<STRING, FLOAT> 
address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>); 








这 个 例子 中 的 数据 模型 从 很 多 方面 打破 了 传统 的 设计 原则 。 


首先 ， 我 们 非 正 式 地 使 用 name 作 为 主键 ， 而 我 们 都 知道 名 字 往 往 不 
是 唯一 的 ! 现在 暂且 忽略 这 个 问题 。 一 个 关系 模型 中 如 果 使 用 name 作 为 
键 ， 那 么 从 一 个 员工 记录 到 经 理 记录 应 该 有 唯一 的 一 个 外 键 关系 。 这 里 
我 们 使 用 了 另 一 种 方式 来 表达 这 个 关系 ， 即 在 subordinates 数 组 字段 中 保 
存 了 这 个 员工 所 有 的 下 属 的 名 字 。 


其 次 ， 对 于 每 名 员工 来 说 ， 其 各 项 税收 扣除 额 都 是 不 同 的 ， 但 是 
map 的 键 部 是 一 样 的 ， 即 使 用 户 使 用 “标记 *( 例 如 ， 整 数 ) 来 作为 键 实际 
对 应 的 值 。 一 个 常规 的 关系 模型 通常 使 用 一 个 单独 的 、 具 有 2 个 列 的 表 
来 记录 税收 扣除 项 的 扣除 名 称 (或 标志 ) 和 具体 的 值 ， 而 员工 表 和 这 个 税 
收 扣除 项 之 间 是 一 对 多 的 关系。 


























最 后 ， 有 些 雇员 还 是 有 可 能 住 在 同一 个 地 址 的 ， 但 是 我 们 为 每 个 雇 
员 都 记录 了 其 对 应 的 住址 ， 而 不 是 使 用 一 个 雇员 住址 表 ， 然 后 和 雇员 表 
建立 一 对 一 的 关系 。 


下 面 轮 到 我 们 管理 引用 完整 性 〈 或 处 理 结 果 ) ， 然 后 解决 特定 的 发 
生 了 改变 的 数据 中 的 重复 数据 。Hive 本 身 没 有 提供 方便 的 方式 来 对 单行 
数据 执行 UPDATE 操 作 。 


不 过 ， 当 用 户 的 数据 量 达 到 数 十 TB 到 PB 级 别 时 ， 相 对 于 这 些 局 限 
性 而 言 ， 优 化 执行 速度 显得 更 加 重要 。 














9.4 同一 份 数据 多 种 处 理 


Hive 本 里 提供 了 一 个 独特 的 语法 ， 它 可 以 从 一 个 数据 源 产 生 多 个 数 
所 聚合 ， 而 无 需 每 次 聚合 都 要 重新 扫描 一 次 。 对 于 大 的 数据 输入 集 来 
说 ， 这 个 优化 可 以 节约 非常 可 观 的 时 间 。 我 们 会 在 第 5 章 详细 讨论 这 个 
问题 。 


例如 ， 下 面 这 2 个 查询 都 会 从 源 表 history 表 读 取 数据 ， 然 后 导入 到 2 
个 不 同 的 表 中 : 


hive> INSERT OVERWRITE TABLE sales 
> SELECT * FROM history WHERE action='purchased'; 


hive> INSERT OVERWRITE TABLE credits 
> SELECT * FROM history WHERE action='returned'; 








上 面 的 查询 ， 语 法 是 正确 的 ， 不 过 执行 效率 低下 。 而 如 下 这 个 查询 
可 以 达到 同样 的 目的 ， 却 只 需要 扫描 histroy 表 一 次 就 可 以 : 


hive> FROM history 
> INSERT OVERWRITE sales SELECT * WHERE action='purchased' 





> INSERT OVERWRITE credits SELECT * WHERE action='returned'; 


9.5 “对 于 每 个 表 的 分 区 


很 多 的 ETL 处 理 过 程 会 涉 及 到 多 个 处 理 步 又 ， 而 每 个 步骤 可 能 会 产 
生 一 个 或 多 个 临时 表 ， 这 些 表 仪 供 下 一 个 job 使 用 。 起 移 可 能 会 觉得 将 
这 些 临时 表 进 行 分 区 不 是 那么 有 必要 的 。 不 过 ， 想 象 一 下 这 样 的 场景 : 
由 于 碍 询 或 者 原始 数据 处 理 的 东 个 步骤 出 现 问题 而 导致 需要 对 好 几 天 的 
输入 数据 重 跑 ETL 过 程 。 这 时 用 户 可 能 就 需要 执行 那些 一 天 执行 一 次 的 
处 理 过 程 ， 来 保证 在 所 有 的 任务 部 完成 之 前 不 会 有 job 将 临时 表 徐 冀 重 
写 。 














例如 ， 下 面 这 个 例子 中 设计 了 一 个 名 为 distinct ip_in_logs 的 中 间 
表 ， 其 会 在 后 续 处 理 步 又 中 使 用 到 : 


$ hive -hiveconf dt=2011-01-01 

hive> INSERT OVERWRITE table distinct_ip_in_logs 
> SELECT distinct(ip) as ip from weblogs 
> WHERE hit_date='${hiveconf:dt}'; 


hive> CREATE TABLE state_city_for_day (state string,city string); 


hive> INSERT OVERWRITE state_city_for_day 
> SELECT distinct(state,city) FROM distinct_ip_in_logs 
> JOIN geodata ON (distinct_ip_in_logs.ip=geodata.ip); 











这 种 方式 是 有 效 的 ， 不 过 当 计 算 某 一 天 的 数据 时 会 导致 前 一 天 的 数 
tf SINSERT OVERWRITE 语 句 履 凋 掉 。 如 果 同 时 运行 两 个 这 样 的 实 
0 a 
: ZR% jE o 


一 个 更 具 鲁 棒 性 的 处 理 方法 是 在 整个 过 程 中 使 用 分 区 。 这 样 就 不 会 
存在 同步 问题 。 同 时 ， 这 样 还 能 带 来 一 个 好 处 ， 那 就 是 可 以 多 许 用 户 对 
中 间 数 据 按 日 期 进行 比较 : 





$ hive -hiveconf dt=2011-01-01 

hive> INSERT OVERWRITE table distinct_ip_in_logs 
> PARTITION (hit_date=${dt}) 
> SELECT distinct(ip) as ip from weblogs 
> WHERE hit_date='${hiveconf:dt}'; 


hive> CREATE TABLE state_city_for_day (state string,city string) 
> PARTITIONED BY (hit_date string); 


hive> INSERT OVERWRITE table state_city_for_day PARTITION(${hiveconf:df}) 
> SELECT distinct(state,city) FROM distinct_ip_in_logs 


> JOIN geodata ON (distinct_ip_in_logs.ip=geodata.ip) 
> WHERE (hit_date='${hiveconf:dt}'); 





这 种 方法 的 一 个 缺点 是 ， 用 户 将 需要 管理 中 间 表 并 删除 旧 分 区 ， 不 
过 这 些 任务 也 很 容易 实现 自动 化 处 理 。 








9.6 ”分 桶 表 数 据 存储 


分 区 提供 一 个 隔离 数据 和 优化 查询 的 便利 的 方式 。 不 过 ， 并 非 所 有 
的 数据 集 都 可 形成 合理 的 分 区 ， 特 别 是 之 前 所 提 到 过 的 要 确定 合适 的 划 
分 大 小 这 个 疑虑 。 


分 桶 是 将 数据 集 分 解 成 更 容易 管理 的 若干 部 分 的 男 一 个 技术 。 


例如 ， 假 设 有 个 表 的 一 级 分 区 是 dt， 代 表 日 期 ， 二 级 分 区 是 
user id， 那么 这 种 划分 方式 可 能 会 导致 大 多 的 小 分 区 。 回 想 下 ， 如 果 用 
户 是 使 用 动态 分 区 来 创建 这 些 分 区 的 话 ， 那 么 默认 情况 下 ，Hive 会 限制 
动态 分 区 可 以 创建 的 最 大 分 区 数 ， 用 来 避免 由 于 创建 太 多 的 分 区 导致 超 
以 及 其 他 一 些 问 题 。 因 此 ， 如 下 命令 可 能 会 执 
行 失败 : 





hive> CREATE TABLE weblog (url STRING, source_ip STRING) 
> PARTITIONED BY (dt STRING, user “id INT); 


hive> FROM raw_weblo 
> INSERT OVERWRITE TABLE page_view PARTITION(dt= aan 06-08', user_id) 
> SELECT server_name, url, source_ip, dt, user_i 


不 过 ， 如 果 我 们 对 表 weblog 进 行 分 桶 ， 并 使 用 user_id 字 上 段 作 为 分 桶 
字段 ， 则 字段 值 会 根据 用 户 指定 的 值 进行 哈 希 分 发 到 桶 中 。 同 一 个 
user_id 下 的 记录 通常 会 存储 到 同一 个 桶 内 。 假 设 用 户 数 要 比 桶 数 多 得 
多 ， 那 么 每 个 桶 内 束 将 会 包含 多 个 用 户 的 记录 : 
hive> CREATE TABLE weblog (user_id INT, url STRING, source_ip STRING) 


> PARTITIONED BY (dt STRING) 
> CLUSTERED BY (user_id) INTO 96 BUCKETS; 





不 过 ， 将 数据 正确 地 插入 到 表 的 过 程 完全 取决 于 用 户 自 己 ! 
CREATE TABLE 语 名 中 所 规定 的 信 . 鼠 仅 仅 定 义 了 元 数据 ， 而 不 影响 实 
际 填 充 表 的 命令 。 


下 面 介 绍 如 何在 使 用 INSERT ... TABLE 语 句 时 ， 正 确 地 填充 表 。 
首先 ， RITE 要 设置 一 个 属 性 来 强制 Hive 为 目标 表 的 分 桶 初始 化 过 程 设 
然后 我 们 再 执行 一 个 查询 来 填充 分 区 。 例 
Us 








hive> SET hive.enforce.bucketing = true; 


hive> FROM raw_logs 


> INSERT OVERWRITE TABLE weblog 
> PARTITION (dt='2009-02-25') 
> SELECT user_id, url, source_ip WHERE dt='2009-02-25'; 





如 果 我 们 没有 使 用 hive.enforce.bucketing 属 性 ， 那 么 我 们 就 需要 上 自己 
设置 和 分 桶 个 数 相 [匹配 的 reducer 个 数 ， 例 如 ， 使 用 set 
mapred.reduce.tasks=96， 然 后 在 INSERT 语 句 中 ， 需 要 在 SELECT 语 句 后 
增加 CLUSTER BY 语句 。 


os 
SS us 

对 于 所 有 表 的 元 数据 ， 指 定 分 桶 并 不 能 保证 表 可 以 正确 地 填 
充 。 用 户 可 以 根据 前 面 的 示例 来 确保 是 否 正确 地 填充 了 表 。 


分 桶 有 几 个 优点 。 因 为 桶 的 数量 是 固定 的 ， 所 以 它 没 有 数据 波动 。 
桶 对 于 抽样 再 合适 不 过 。 如 果 两 个 表 都 是 按照 user_id 进 行 分 桶 的 话 ， 那 
么 Hive 可 以 创建 一 个 逻辑 上 正确 的 抽样 。 分 桶 同时 有 利于 执行 高 效 的 
map-side JOIN， 正 如 我 们 在 第 6.4.9 节 “map-side JOIN” 中 讨论 过 的 一 样 。 











9.7 ”为 表 增 加 列 


Hive 人 允许 在 原始 数据 文件 之 上 定义 一 个 模式 ， 而 不 像 很 多 的 数据 库 
那样 ， 要 求 必须 以 特定 的 格式 转换 和 导入 数据 。 这 样 的 分 离 方式 的 好 处 
是 ， 妆 为 数据 文件 增加 新 的 字段 时 ， 可 以 容易 地 适应 表 定 义 的 模式 。 


Hive 提 供 了 SerDe 抽 象 ， 其 用 于 从 输入 中 提取 数据 。SerDe 同 样 用 于 
输出 数据 ， 尺 管 输出 功能 并 非 经 常 使 用 ， 因 为 Hive 主 要 用 于 查询 。 一 个 
SerDe 通 常 是 从 左 到 右 进 行 解析 的 。 通 过 指定 的 分 隔 符 将 行 分 解 成 列 。 
SerDe 通 常 是 非常 宽松 的 。 例 如 ， 如 果 某 行 的 字段 个 数 比 预期 的 要 少 ， 
那么 缺少 的 字段 将 返回 nul。 如 果 某 行 的 字段 个 数 比 预 期 的 要 多 ， 那 么 
多 出 的 字段 将 会 被 省 略 掉 。 增 加 新 字段 的 命令 只 需要 一 条 ALTER 
TABLE ADD COLUMN 命 令 束 可 完成 。 因 为 日 志 格 式 通常 是 对 已 有 字 
段 增加 更 多 信息 ， 所 以 这 样 是 非常 有 用 的 : 
hive> CREATE TABLE weblogs (version LONG, url STRING) 


> PARTITIONED BY (hit_date int) 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; 

















hive> ! cat log1.txt 
1 /mystuff 
1 /toys 


hive> LOAD DATA LOCAL INPATH 'logi.txt' int weblogs partition(20110101); 


hive> SELECT * FROM weblogs; 
1 /mystuff 20110101 
1 /toys 20110101 


Be a Ta SEAS, ARE A EI — EE MR RB 
子 就 是 展示 为 数据 新 增 user_id 字 段 的 过 程 。 需 要 注意 的 是 ， 一 些 旧 的 原 
始 数据 文件 可 能 不 包含 这 个 字段 : 

















hive> ! cat log2.txt 
2 /cars bob 
2 /stuff terry 


hive> ALTER TABLE weblogs ADD COLUMNS (user_id string); 
hive> LOAD DATA LOCAL INPATH 'log2.txt' int weblogs partition(20110102); 


hive> SELECT * from weblogs 

1 /mystuff 20110101 NULL 
1 /toys 20110101 NULL 
2 /cars 20110102 bob 

2 /stuff 20110102 terry 


需要 注意 的 是 ， 通 过 这 种 方式 ， 无 法 在 已 有 字段 的 开始 或 者 中 间 增 
加 新 字段 。 


9.8 ”使 用 列 存 储 表 


Hive 通 常 使 用 行 式 存储 ， 不 过 Hive 也 提供 了 一 个 列 式 SerDe 来 以 混 
合 列 式 格式 存储 信息 。 虽 然 这 种 格式 是 可 以 用 于 任意 类 型 的 数据 的 ， 不 
过 对 于 茶 些 数据 集 使 用 这 种 方式 是 最 优 的 。 


9.8.1 重复 数据 
假设 有 足够 多 的 行 ， 像 state 字 段 和 age 字段 这 样 的 列 将 会 有 很 多 重 


复 的 数据 。 这 种 类 型 的 数据 如 果 使 用 列 式 存 储 将 会 非常 好 ， 如 表 9-1 所 
ZN o 














表 9-1 有 3 个 字段 的 样 例 表 








9.8.2 多 列 
表 9-2 具 有 非常 多 的 字段 。 
表 9-2 Gere FRM 

















webl stuff 


i ee E 


poe fre e es foe few 
wo fsmte e fes foe fee 





查询 通常 只 会 使 用 到 一 个 字段 或 者 很 少 的 一 组 字段 。 基 于 列 式 存储 
将 会 使 分 析 表 数据 执行 得 更 快 : 


hive> SELECT distinct(state) from weblogs; 
NY 
NJ 


用 户 可 以 参考 第 15.3.2 节 “RCFile” 内 容 来 看 看 如 何 使 用 这 种 格式 。 





9.9 JLE) 总 是 使 用 压缩 


几乎 在 所 有 情况 下 ， 压 缩 都 可 以 使 磁盘 上 存储 的 数据 量变 小 ， 这 样 
可 以 通过 降低 VO 来 提高 查询 执行 速度 。Hive 可 以 无 颖 地 使 用 很 多 压缩 
类 型 。 不 使 用 压缩 唯一 令 人 信服 的 理由 就 是 产生 的 数据 用 于 外 部 系统 ， 
或 者 非 压缩 格式 例如 文本 格式 ) 是 最 兼容 的 。 


但 是 压缩 和 解压 缩 都 会 消耗 CPU 资源 。MapReduce 任 务 往往 是 IO 密 
集 型 的 ， 因 此 CPU 开销 通常 不 是 问题 。 不 过 ， 对 于 工作 流 这 样 的 CPU 密 
集 型 的 场景 ， 例 如 一 些 机 器 学 习 算 法 ， 压 缩 实际 上 可 能 会 从 更 多 必要 的 
操作 中 获取 宝贵 的 CPU 资源 ， 从 而 降低 性 能 。 


二 这 “其他 文件 格式 和 压缩 廊 法 ”中 有 六 于 如 何 使 用 压 红 更 详细 的 


介绍 。 








HOR M 


HiveQL 是 一 种 声明 式 语言 ， 用 户 会 提交 声明 式 的 查询 ， 而 Hive 会 
将 其 转换 成 MapReduce job。 大 多 数 情 况 ， 用 户 不 需要 了 解 Hive 内 部 是 
如 何 工 作 的 ， 这 样 可 以 专注 于 手头 上 的 事情 。 而 内 部 复杂 的 查询 解析 、 
规划 、 优 化 和 执行 过 程 是 由 Hive 开 发 团队 多 年 的 艰难 工作 来 实现 的 ， 不 
过 大 部 分 时 间 用 户 可 以 直接 无 视 这 些 内 部 逻辑 。 

不 过 ， 当 用 户 对 于 Hive 具 有 越 来 越 多 的 经 验 后 ， 学 习 下 Hive 背 后 的 
理论 知识 以 及 底层 的 一 些 实现 细节 ， 会 让 用 户 更 加 高 效 地 使 用 Hive。 


本 章 将 会 分 儿 种 不 同 的 议题 来 介绍 Hive 性 能 调 优 。 一 些 调 优 涉及 到 
调整 配置 参数 的 值 〈 就 像 * 调 整 旋 钮 "一样 ) ， 而 其 他 一 些 调 优 过 程 则 包 
括 局 用 或 者 茶 用 东 些 特定 的 特性 。 











10.1 使 用 EXPLAIN 


学 习 Hive 是 如 何 工作 的 《在 读 完 本 书 之 后 ) 第 一 个 步骤 束 是 学 习 
EXPLAIN 功 能 ， 其 可 以 帮助 我 们 学 习 Hive 是 如 何 将 查询 转化 成 
MapReduce 任 务 的 。 


思考 下 面 这 个 例子 : 
hive> DESCRIBE onecol; 


number int 


hive> SELECT * FROM onecol; 


hive> SELECT SUM(number) FROM onecol; 
14 








现在 ， 我 们 在 前 面 例子 中 最 后 一 个 查询 语句 前 加 上 EXPLAIN 关 键 
然后 来 查询 下 碍 询 计 划 和 其 他 一 些 信息 。 这 个 碍 询 本 身 是 不 会 执行 
J: 


上 上面 得 询 语句 的 输出 需要 一 些 解释 和 实践 才能 够 理解 。 
首先 ， 会 打印 出 抽象 语法 树 。 它 表明 Hive 是 如 何 将 查询 解析 成 


token( 和 从 号) 和 literal( 字 和 面值) 的， 是 第 一 步 将 但 询 转 化 到 最 终结 果 的 一 部 
分 。 








ABSTRACT SYNTAX TREE: 
(TOK_QUERY 
(TOK_FROM (TOK_TABREF (TOK_TABNAME onecol))) 
(TOK_INSERT (TOK_DESTINATION (TOK_DIR TOK_TMP_FILE)) 
(TOK_SELECT 
(TOK_SELEXPR 


(TOK_FUNCTION sum (TOK_TABLE_OR_COL number) ))))) 





(为 了 适应 页 面 的 展示 ， 这 里 对 实际 的 输出 信息 进行 了 缩 进 处 
e 


XY FABLE ASAE APT a A a] as AA POR, ANE ERG AED 





应 付 。 不 过 ， 即 使 用 户 是 这 个 领域 的 新 手 ， 也 是 可 以 来 研究 下 这 个 输出 
信息 的 。 这 样 可 以 方便 用 户 了 解 Hive 是 怎么 处 理 SQL 语 句 的 。〔 作 为 第 
一 步 ， 用 户 可 以 忽略 掉 TOK_ 这 个 前 级 来 查看 输出 信息 。) 


尽管 我 们 的 碍 询 会 将 其 输出 写 入 到 控制 合 ， 但 Hive 实 际 上 会 移 将 输 
出 写 入 到 一 个 临时 文件 中 ， 正 如 下 面 输出 信息 中 所 表示 的 : 


接 下 来 ， 我 们 可 以 看 到 列 名 number， 以 及 表 名 onecol， 还 有 sum 消 
数 。 





一 个 Hive 任 务 会 包含 有 一 个 或 多 个 stage( 阶 段 )， 不 同 的 stage 间 会 存 
在 着 依赖 关系 。 正 如 用 户 可 以 预料 到 的 ， 越 复杂 的 查询 通常 将 会 引入 越 
多 的 stage， 而 通 名 stage 越 多 就 需要 越 多 的 时 间 来 完成 任务 。 


一 个 stage 可 以 是 一 个 MapReduce 任 务 ， 也 可 以 是 一 个 抽样 阶段 ， 或 
者 一 个 合并 阶段 ， 还 可 以 是 一 个 limit 阶 段 ， 以 及 Hive 需 要 的 其 他 某 个 任 
务 的 一 个 阶段 。 默 认 情 况 下 ，Hive 会 一 次 只 执行 一 个 stage( 阶 段 )， 不 过 
我 们 稍 后 将 在 第 10.6 市 “并 行 执行 ”中 讨论 如 何 并行 执 行 。 


某 些 阶段 执行 时 间 很 得 ， 像 将 文件 转移 到 其 他 路 径 下 这 样 的 操作 ; 
其 他 一 些 阶段 如 果 数 据 量 小 ， 那 么 执行 也 是 很 快 的 ， 即 使 有 时 它们 需要 


一 个 map 过 程 或 reduce 过 程 : 





STAGE DEPENDENCIES: 
Stage-1 is a root stage 
Stage-0 is a root stage 


STAGE PLAN 部 分 比较 见长 也 比较 复杂 。Stage-1 包 含 了 这 个 job 的 
大 部 分 处 理 过 程 ， 而 且 会 触发 一 个 MapReduce job。TableScan 以 这 个 表 
作为 输入 ， 然 后 会 产生 一 个 只 有 字段 number 的 输出 。Group By Operator 
会 应 用 到 sum(number)， 然 后 会 产生 一 个 输出 字段 _col0( 这 是 为 临时 结果 
字段 按 规 则 起 的 临时 字段 名 )。 这 些 都 是 发 生 在 job 的 map 处 理 阶 段 过 
程 ， 也 残 是 都 是 位 于 Map Operator Tree FHH: 





STAGE PLANS: 
Stage: Stage-1 
Map Reduce 
Alias -> Map Operator Tree: 
onecol 


TableScan 
alias: onecol 
Select Operator 


expressions: 
expr: number 
type: int 


outputColumnNames: number 
Group By Operator 
aggregations: 
expr: sum(number ) 
bucketGroup: false 
mode: hash 
outputColumnNames: _col0 
Reduce Output Operator 
sort order: 


tag: -1 

value expressions: 
expr: _cold 
type: bigint 





在 reduce 过 程 这 边 ， 也 就 是 Reduce Operator Tree 下 面 ， 我 们 可 以 看 
到 相同 的 Group by Operator， 但 是 这 次 其 应 用 到 的 是 对 _col0 字 段 进 行 
sum 操 作 。 最 后 ， 在 reducer 中 我 们 看 到 了 File Output Operator， 其 说 明了 
输出 结果 将 是 文本 格式 ， 是 基于 字符 串 的 输出 格式 : 


HivelgnoreKeyTextOutputFormat: 








Reduce Operator Tree: 
Group By Operator 
aggregations: 
expr: sum(VALUE._col0) 
bucketGroup: false 
mode: mergepartial 
outputColumnNames: _col0 
Select Operator 
expressions: 
expr: _cold 
type: bigint 
outputColumnNames: _col0 
File Output Operator 
compressed: false 
GlobalTablelId: 0 
table: 
input format: org.apache.hadoop.mapred.TextInputFormat 
output format: 
org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat 





为 这 个 job 没有 LIMIT 语 句 ， 因 此 Stage-0 阶 段 是 一 个 没有 任何 操作 
的 阶段 : 


Stage: Stage-0 
Fetch Operator 


limit: -1 








理解 Hive 古 如 何 对 每 个 查询 进行 解析 和 计划 的 复杂 的 细节 并 非 总 是 
有 用 的 。 不 过 ， 这 是 分 析 复杂 的 或 执行 效率 低 的 查询 的 一 个 不 错 的 方 
式 ， 特 别 是 当 我 们 需要 尝试 各 种 各 样 的 调 优 方式 时 。 我 们 可 以 在 “好 
辑 ” 层 全 看 到 这 些 调整 会 产生 什么 样 的 影响 ， 这 样 可 以 关联 到 性 能 的 度 
Æo 








10.2 EXPLAIN EXTENDED 


使 用 EXPLAIN EXTENDED 语 句 可 以 产生 更 多 的 输出 信息 。 为 了 方 
便 起 见 ， 我 们 不 会 展示 完整 的 和 输出， 不 过 我 们 将 会 展示 Reduce Operator 
Tree 来 演示 输出 的 不 同 点 : 


Reduce Operator Tree: 
Group By Operator 
aggregations: 
expr: sum(VALUE._col0) 
bucketGroup: false 
mode: mergepartial 
outputColumnNames: _col0 
Select Operator 
expressions: 
expr: _col0 
type: bigint 
outputColumnNames: _col0 
File Output Operator 
compressed: false 
GlobalTableId: 0 
directory: file:/tmp/edward/hive_2012-[long number]/-ext-10001 
NumFilesPerFileSink: 1 
Stats Publishing Key Prefix: 
file: /tmp/edward/hive_2012-[long number ]/-ext-10001/ 
table: 
input format: org.apache.hadoop.mapred.TextInputFormat 
output format: 
org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat 
properties: 
columns _col0 
columns.types bigint 
escape.delim \ 
serialization. format 1 
TotalFiles: 1 
GatherStats: false 
MultiFileSpray: false 





强烈 建议 用 户 比 较 下 这 两 个 Reduce Operator Tree 下 的 输出 。 
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10.3 ”限制 调整 


LIMIT 语 句 是 大 家 经 常 使 用 到 的 ， 经 党 使 用 CLI 的 用 户 都 会 使 用 
到 。 不 过 ， 在 很 多 情况 下 LIMIT 语 句 还 是 需要 执行 整个 查询 语句 ， 然 后 
再 返回 部 分 结果 的 。 因 为 这 种 情况 通常 是 浪费 的 ， 所 以 应 该 尽 可 能 地 避 
免 出 现 这 种 情况 。Hive 有 一 个 配置 属性 可 以 开启 ， 当 使 用 LIMTI 语 句 
时 ， 其 可 以 对 源 数 据 进 行 抽样 : 











<property> 
<name>hive.limit.optimize.enable</name> 
<value>true</value> 


<description>whether to enable to optimization to 
try a smaller subset of data for simple LIMIT first.</description> 
</property> 





一 旦 属性 hive.limit.optimize.enable 的 值 设置 为 tue， 那 么 还 会 有 两 个 
参数 可 以 控制 这 个 操作 ， 也 就 是 hive.limit.row.max.size 和 
hive.limit.optimize.limit.file: 


<property> 
<name>hive.limit.row.max.size</name> 
<value>100000</value> 
<description>when trying a smaller subset of data for simple LIMIT, 
how much size we need to guarantee each row to have at least. 
</description> 
</property> 


<property> 
<name>hive.limit.optimize. limit .file</name> 
<value>10</value> 


<description>when trying a smaller subset of data for simple LIMIT, 
maximum number of files we can sample.</description> 
</property> 








这 个 功能 的 一 个 缺点 就 是 ， 有 可 能 输入 中 有 用 的 数据 永远 不 会 被 处 
理 到 ， 例 如 ， 像 任意 的 一 个 需要 reduce 步 又 的 查询 ，JOIN 和 GROUP BY 
操作 ， 以 及 聚合 函数 的 大 多 数 调用 ， 等 等 ， 将 会 产生 很 不 同 的 结果 。 也 
许 这 个 差异 在 很 多 情况 下 是 可 以 接受 的 ， 但 是 重要 的 是 要 理解 。 














10.4 JOIN 优化 


在 第 6.4.2 节 “JOIN 优化 > 和 第 6.4.9 节 “map-side JOIN” 中 我 们 讨论 过 如 
何 优 化 job 性 能 。 这 里 我 们 不 会 再 次 重新 进行 说 明 ， 不 过 需要 提醒 自己 
要 清楚 哪个 表 是 最 大 的 ， 并 将 最 大 的 表 放 置 在 JOIN 语句 的 最 右边 ， 或 者 
直接 使 用 /* streamtable(table_name) */ 语 名 指出。 


如 果 所 有 表 中 有 一 个 表 足 够 得 小 ， 是 可 以 完成 载 入 到 内 存 中 的 ， 那 
么 这 时 Hive 可 以 执行 一 个 map-side JOIN， 这 样 可 以 减少 reduce 过 程 ， 有 
时 甚至 可 以 减少 某 些 map task 任 务 。 有 时 候 即使 某 些 表 不 适合 载 入 内 存 
也 可 以 使 用 mapJOIN， 因 为 减少 reduce 阶 段 可 能 比 将 不 太 大 的 表 分 发 到 
每 个 map task 中 会 带 来 更 多 的 好 处 。 








10.5 ”本 地 模式 


大 多 数 的 Hadoop Job 是 需要 Hadoop 提 供 的 完整 的 可 扩展 性 来 处 理 大 
数据 集 的 。 不 过 ， 有 时 Hive 的 输入 数据 量 是 非常 小 的 。 在 这 种 情况 下 ， 
为 查询 触发 执行 任务 的 时 间 消 耗 可 能 会 比 实际 job 的 执行 时 间 要 多 得 
多 。 对 于 大 多 数 这 种 情况 ，Hive 可 以 通过 本 地 模式 在 和 单 台 机 器 上 (或 某 
ses Ae 处 理 所 有 的 任务 。 对 于 小 数据 集 ， 执 行 时 间 可 以 
明显 被 缩短 。 


用 户 可 以 按照 如 下 这 个 例子 中 所 演示 的 方式 ， 在 执行 过 程 中 临时 局 
用 本 地 模式 : 


hive> set oldjobtracker=${hiveconf:mapred.job.tracker}; 








hive> set mapred.job.tracker=local; 


hive> set mapred.tmp.dir=/home/edward/tmp; 


hive> SELECT * from people WHERE firstname=bob; 





hive> set mapred.job.tracker=${oldjobtracker}; 


用 户 可 以 通过 设置 属性 hive.exec.mode.local.auto 的 值 为 tue， 来 让 
Hive 在 适当 的 时 候 上 自动 启动 这 个 优化 。 通 常用 户 可 以 将 这 个 配置 写 
在 $HOME/.hiverc 文 件 中 。 


如 果 希 望 对 所 有 的 用 户 都 使 用 这 个 配置 ， 那 么 可 以 将 这 个 配置 项 增 
dn # $HIVE_HOME/conf/hive-site.xml XF F : 





<property> 
<name>hive.exec.mode.local.auto</name> 
<value>true</value> 


<description> 


Let hive determine whether to run in local mode automatically 
</description> 
</property> 





10.6 ”并 行 执行 


Hive 会 将 一 个 查询 转化 成 一 个 或 者 多 个 阶段 。 这 样 的 阶段 可 以 是 
MapReduce 阶 段 、 抽 样 阶段 、 合 并 阶段 、limit 阶 段 ， 或 者 Hive 执 行 过 程 
中 可 能 需要 的 其 他 阶段 。 默 认 情 况 下 ，Hive 一 次 只 会 执行 一 个 阶段 。 不 
过 ， 某 个 特定 的 job 可 能 包含 众多 的 阶段 ， 而 这 些 阶段 可 能 并 非 完 全 互 
相依 赖 的 ， 也 就 是 说 有 些 阶段 是 可 以 并 行 执 行 的 ， 这 样 可 能 使 得 整个 
job 的 执行 时 间 缩 短 。 不 过 ， 如 果 有 更 多 的 阶段 可 以 并 行 执 行 ， 那 么 job 
可 能 就 越 快 完成 。 


通过 设置 参数 hive.exec.parallel 值 为 tue， 就 可 以 开启 并 发 执行 。 不 
过 ， 在 共享 集群 中 ， 需 要 注意 下 ， 如 果 job 中 并 行 执行 的 阶段 增多 ， 那 
么 集群 利用 率 就 会 增加 








<property> 
<name>hive.exec.parallel</name> 
<value>true</value> 


<description>whether to execute jobs in parallel</description> 
</property> 





10.7 严格 模式 


Hive 提 供 了 一 个 严格 模式 ， 可 以 防止 用 户 执行 那些 可 能 产生 意 想 不 
到 的 不 好 的 影响 的 查询 。 


通过 设置 属性 hive.mapred.mode 值 为 strict 可 以 禁止 3 种 类 型 的 查询 。 


其 一 ， 对 于 分 区 表 ， 除 非 WHEHRE 语 句 中 含有 分 区 字段 过 滤 条 件 
来 限制 数据 范围 ， 否 则 不 允许 执行 。 换 句 话 说， 就 是 用 户 不 允许 扫描 所 
有 分 区 。 进 行 这 个 限制 的 原因 是 ， 通 常 分 区 表 都 拥有 非 第 大 的 数据 集 ， 
而 且 数 据 增加 迅速 。 没 有 进行 分 区 限制 的 碍 询 可 能 会 消耗 令 人 不 可 接受 
的 巨大 资源 来 处 理 这 个 表 : 














hive> SELECT DISTINCT(planner_id) FROM fracture_ins WHERE planner_id=5; 
FAILED: Error in semantic analysis: No Partition Predicate Found for 





Alias "fracture_ins" Table "fracture_ins" 


en 中 增加 了 一 个 分 区 过 滤 条 件 〈 也 就 是 
限制 了 表 分 区 ) : 


hive> SELECT DISTINCT(planner_id) FROM fracture_ins 
> WHERE planner_id=5 AND hit_date=20120101; 


. normal results ... 





其 二 ， 对 于 使 用 了 ORDER BY 语句 的 查询 ， 要 求 必 须 使 用 LIMIT 语 
句 。 因 为 ORDER BY 为 了 执行 排序 过 程 会 将 所 有 的 结果 数据 分 发 到 同一 
个 reducer 中 进行 处 理 ， 强 制 要 求 用 户 增 加 这 个 LIMIT 语 句 可 以 防止 
reducer 额 外 执行 很 长 一 段 时 间 : 


hive> SELECT * FROM fracture_ins WHERE hit_date>2012 ORDER BY planner_id; 


FAILED: Error in semantic analysis: line 1:56 In strict mode, 
limit must be specified if ORDER BY is present planner_id 





只 需要 增加 LIMIT 语 句 束 可 以 解决 这 个 问题 : 


hive> SELECT * FROM fracture_ins WHERE hit_date>2012 ORDER BY planner_id 
> LIMIT 100000; 


. normal results ... 


X=, Hates a Pail, WERE RONAN Bd. MR ARAL 











数据 库 非 常 了 解 的 用 户 可 能 期 望 在 执行 JOIN 查询 的 时 候 不 使 用 ON 语句 
而 是 使 用 WHERE 语句 ， 这 样 关 系 型 数据 库 的 执行 优化 器 就 可 以 高 效 地 
将 WHERE 语句 转化 成 那个 ON 语句 。 不 幸 的 是 ，Hive 并 不 会 执行 这 种 优 
化 ， 因 此 ， 如 果 表 足够 大 ， 那 么 这 个 查询 就 会 出 现 不 可 控 的 情况 : 





hive> SELECT * FROM fracture_act JOIN fracture_ads 
> WHERE fracture_act.planner_id = fracture_ads.planner_id; 
FAILED: Error in semantic analysis: In strict mode, cartesian product 


is not allowed. If you really want to perform the operation, 
+set hive.mapred.mode=nonstrict+ 





下 面 这 个 才 是 个 正确 的 使 用 JOIN 和 ON 语句 的 查询 : 


hive> SELECT * FROM fracture_act JOIN fracture_ads 
> ON (fracture_act.planner_id = fracture_ads.planner_id); 





. normal results ... 


10.8 调整 mapper 和 reducer 个 数 


Hive 通 过 将 查询 划分 成 一 个 或 者 多 个 MapReduce 任 务 达到 并 行 的 目 
的 。 每 个 任务 都 可 能 具有 多 个 mapper 和 reducer 任 务 ， 其 中 至 少 有 一 些 是 
量 ， 例 如 输入 的 数据 量 大 小 以 及 对 这 些 数据 执行 的 操作 类 型 等 。 


保持 平衡 性 是 有 必要 的 。 如 果 有 太 多 的 mapper 或 reducer 任 务 ， 就 会 
导致 司 动 阶段 、 调 度 和 运行 job 过 程 中 产生 过 多 的 开销 ; 而 如 果 设 置 的 
数量 太 少 ， 那 么 就 可 能 没有 充分 利用 好 集群 内 在 的 并 行 性 。 


当 执 行 的 Hive 碍 询 具 有 reduce 过 程 时 ，CLI 控 制 台 会 打印 出 调 优 后 
的 reducer 个 数 。 下 面 我 们 来 看 一 个 包含 有 GROUP BY 语句 的 例子 ， 因 为 
这 种 查询 总 是 需要 reduce 过 程 的 。 与 此 相反 ， 很 多 其 他 查询 会 转换 成 只 
需要 map 阶 段 的 任务 : 


hive> SELECT pixel_id, count FROM fracture_ins WHERE hit_date=20120119 
> GROUP BY pixel_id; 

Total MapReduce jobs = 1 

Launching Job 1 out of 1 

Number of reduce tasks not specified. Estimated from input data size: 3 

In order to change the average load for a reducer (in bytes): 


set hive.exec.reducers.bytes.per.reducer=<number> 
In order to limit the maximum number of reducers: 
set hive.exec.reducers.max=<number> 
In order to set a constant number of reducers: 
set mapred.reduce. tasks=<number> 





Hive 是 按照 输入 的 数据 量 大 小 来 确定 reducer 个 数 的 。 我 们 可 以 通过 
dfs -count 命 令 来 计算 输入 量 大 小 ， 这 个 命令 和 Linux 中 的 du -s 命 令 类 
似 ; 其 可 以 计算 指定 目录 下 所 有 数据 的 总 大 小 : 

[edward@et102 ~]$ hadoop dfs -count /user/media6/fracture/ins/* | tail -4 


1 8 2614608737 hdfs://.../user/media6/fracture/ins/hit_date=20120118 
1 7 2742992546 hdfs://.../user/media6/fracture/ins/hit_date=20120119 


1 17 2656878252 hdfs://.../user/media6/fracture/ins/hit_date=20120120 
1 2 362657644 hdfs://.../user/media6/fracture/ins/hit_date=20120121 





(为 了 方便 排版 二 看 ， 我 们 对 实际 的 数据 进行 了 格式 化 并 省 上 略 挥 了 


一 些 详细 信息 。)》 


属性 hive.exec.reducers.bytes.per.reducer 的 默认 值 是 1GB。 如 果 将 这 
个 属性 值 调整 为 750MB 的 话 ， 那 么 下 面 这 个 任务 Hive 就 会 使 用 4 个 


reducer: 


hive> set hive.exec.reducers.bytes.per.reducer=750000000; 


hive> SELECT pixel_id,count(1) FROM fracture_ins WHERE hit_date=20120119 
> GROUP BY pixel_id; 


Total MapReduce jobs = 1 
Launching Job 1 out of 1 
Number of reduce tasks not specified. Estimated from input data size: 4 





默认 值 通 常情 况 下 是 比较 合适 的 。 不 过 ， 有 些 情 况 下 查询 的 map 阶 
入 会 产生 比 实际 输入 数据 量 要 多 得 多 的 数据 。 如 果 map 阶 段 产 生 的 数据 
量 非 常 多 ， 那 么 根据 输入 的 数据 量 大 小 来 确定 的 reducer 个 数 束 显得 有 些 
少 了 。 同 样 地 ，map 阶 段 也 可 能 会 过 滤 掉 输入 数据 集中 的 很 大 一 部 分 的 
数据 而 这 时 可 能 需要 少量 的 reducer 束 满足 计算 了 。 


一 个 快速 的 进行 验证 的 方式 就 是 将 reducer 个 数 设置 为 固定 的 值 ， 而 
需 Hive 来 计算 得 到 这 个 值 。 如 果 用 户 还 记得 的 话 ，Hive 的 默认 reducer 
个 数 应 该 是 3。 可 以 通过 设置 属性 mapred.reduce.tasks 的 值 为 不 同 的 值 来 
确定 是 使 用 较 多 还 是 较 少 的 reducer 来 缩短 执行 时 间 。 需 要 记 住 ， 受 外 部 
因素 影响 ， 像 这 样 的 标杆 值 十 分 复杂 ， 例 如 其 他 用 户 并 发 执行 job 的 情 
况 。Hadoop 需 要 消耗 好 几 秒 时 间 来 启动 和 调度 map 和 reduce 任 务 
(task) 。 在 进行 性 能 测试 的 时 候 ， 要 考虑 到 这 些 有 影响 因 子 ， 特 别 是 job 
比较 小 的 时 候 。 


当 在 共享 集群 上 处 理 大 任务 时 ， 为 了 控制 资源 利用 情况 ， 属 性 
hive.exec.reducers.max 显 得 非常 重要 。 一 个 Hadoop 集 群 可 以 提供 的 map 
和 reduce 资 源 个 数 〈( 也 称 为 “ 插 柳 ”) ， 是 固定 的 。 某 个 大 job 可 能 就 会 消 
耗 完 万 有 的 插 槽 ， 从 而 导致 其 他 job 无 法 执行 。 通 过 设置 属性 
hive.exec.reducers.max 可 以 阻止 某 个 得 询 消耗 太 多 的 reducer 资 源 。 有 必 
要 将 这 个 属性 配置 到 $HIVE_HOME/conf/hive-site.xml 文 件 中 。 对 这 个 属 
性 值 大 小 的 一 个 建议 的 计算 公式 如 下 : 
























































1.5 倍 数 是 一 个 经 验 系 数 ， 用 于 防止 未 充分 利用 集群 的 情况 。 


10.9 JVM 重 用 


JVM 重 用 是 Hadoop 调 优 参数 的 内 容 ， 其 对 Hive 的 性 能 具有 非常 大 的 
影响 ， 特 别 是 对 于 很 难 避 免 小 文件 的 场景 或 task 特 别 多 的 场景 ， 这 类 场 
景 大 多 数 执行 时 间 都 很 短 。 


Hadoop 的 默认 配置 通常 是 使 用 派生 JVM 来 执行 map 和 reduce 任 务 
的 。 这 时 JVM 的 启动 过 程 可 能 会 造成 相当 大 的 开销 ， 尤 其 是 执行 的 job 
包含 有 成 百 上 千 个 task 任 务 的 情况 。JVM 重 用 可 以 使 得 JVM 实 例 在 同一 
个 job 中 重新 使 用 N 次 。N 的 值 可 以 在 Hadoop 的 mapred-site.xml 文 件 〈 位 
于 $HADOOP_HOME/conf 目 录 下 ) 中 进行 设置 : 





<property> 
<name>mapred.job.reuse. jvm.num. tasks</name> 
<value>10</value> 


<description>How many tasks to run per jvm. If set to -1, there is no limit. 
</description> 
</property> 





这 个 功能 的 一 个 缺点 是 ， 开 启 JVM 重 用 将 会 一 直 占 用 使 用 到 的 task 
插 槽 ， 以 便 进 行 重用 ， 直 到 任务 完成 后 才能 释放 。 如 果 某 个 “不 平衡 
的 ”的 job 中 有 某 几 个 reduce task 执 行 的 时 间 要 比 其 他 reduce task 消 耗 的 时 
间 多 得 多 的 话 ， 那 么 保留 的 插 横 就 会 一 直 空 间 着 却 无 法 被 其 他 的 job 使 
用 ， 直 到 所 有 的 task 都 结束 了 才 会 释放 。 


10.10 索引 
索引 可 以 用 来 加 快 含 有 GROUP BY 语句 的 查询 的 计算 速度 。 
Hive 从 v0.8.0 版 本 后 增加 了 一 个 bitmap 索 引 实现 。Bitmap 索 引 一 般 在 


旨 定 的 列 排 重 后 的 值 比较 小 时 进行 使 用 。 请 参考 第 8.1.1 15 “Bitmap R 
引 ” 中 的 详细 说 明 。 


10.11 动态 分 区 调整 


i 0 a 样 ， 动 态 分 区 
INSERT 语 句 可 以 通过 简单 的 SELECT 语句 向 分 区 表 中 创建 很 多 新 的 分 
ER 


这 是 一 个 非常 强大 的 功能 ， 不 过 如 果 分 区 的 个 数 非常 得 多 ， 那 么 就 
eee aa 对 于 Hadoop 来 说 ， 这 个 种 情况 并 不 
是 常见 的 使 用 场景 ， 因 此 ， 其 通常 会 一 次 创建 很 多 的 文件 ， 然 后 会 回 这 
些 文件 中 写 入 大 量 的 数据 。 


跳出 这 些 框框 ，Hive 可 以 通过 配置 限制 动态 分 区 插入 允许 创建 的 分 
区 数 在 1000 个 左右 。 虽 然 太 多 的 分 区 对 于 表 来 说 并 不 好 ， 不 过 ， 通 常 还 
是 将 这 个 值 设 置 的 更 大 以 便 这 些 查询 执行 。 


首先 ， 通 党 在 hive-site.xml 配 置 文件 中 设置 动态 分 区 模式 为 严格 模 
式 〈 也 就 是 属性 值 为 strict) ， > 7 节 “ 严 格 模式 ?中 有 介绍 
过 。 开 局 严格 模式 的 时 候 ， 必 须 保 证 至 少 有 一 个 分 区 是 静态 的 ， 正 如 在 
第 5.2. RE ee 的 。 





<property> 
<name>hive.exec.dynamic.partition.mode</name> 
<value>strict</value> 
<description>In strict mode, the user must specify at least one 


static partition in case the user accidentally overwrites all 
partitions.</description> 
</property> 


然后 ， 可 以 增加 一 些 相关 的 属性 信息 ， 例 如 通过 如 下 属性 来 限制 碍 
询 可 以 创建 的 最 大 动态 分 区 个 数 : 








<property> 
<name>hive.exec.max.dynamic.partitions</name> 
<value>300000</value> 
<description>Maximum number of dynamic partitions allowed to be 
created in total.</description> 
</property> 


<property> 
<name>hive.exec.max.dynamic.partitions.pernode</name> 
<value>10000</value> 
<description>Maximum number of dynamic partitions allowed to be 

created in each mapper/reducer node.</description> 

</property> 


还 有 一 个 配置 是 来 控制 DataNode 上 一 次 可 以 打开 的 文件 的 个 数 。 这 
个 参数 必须 设置 在 DataNode 的 $HADOOP_HOME/confrhdfs-site.xml 配 置 
文件 中 。 





在 Hadoop v0.20.2 版 本 中 ， 这 个 属性 的 默认 值 是 256， 太 小 了 。 这 个 
值 会 影响 到 最 大 的 线程 数 和 资源 数 ， 因 此 ， 也 并 不 推荐 将 这 个 属性 值 设 
置 为 一 个 极 大 值 。 同 时 需要 注意 的 是 ， 在 Hadoop v0.20.2 版 本 中 ， 更 改 
这 个 属性 值 需要 重启 DataNode 才 能 够 生效 : 


<property> 
<name>dfs.datanode.max.xcievers</name> 
<value>8192</value> 

</property> 


10.12 ”推测 执行 


推测 执行 是 Hadoop 中 的 一 个 功能 ， 其 可 以 触发 执行 一 些 重复 的 任务 
(task) 。 尽 管 这 样 会 因 对 重复 的 数据 进行 计算 而 导致 消耗 更 多 的 计算 
资源 ， 不 过 这 个 功能 的 目标 是 通过 加 快 获取 单个 task 的 结果 以 及 进行 侦 
HUSA Task Tracker A SUA EH A AER HES EA DAT 





Hadoop 的 推测 执行 功能 由 $HADOOP_HOME/conf/mapred-site.xml 文 
件 中 的 如 下 2 个 配置 项 控制 着 : 


<property> 
<name>mapred.map.tasks.speculative.execution</name> 
<value>true</value> 
<description>If true, then multiple instances of some map tasks 
may be executed in parallel.</description> 

</property> 


<property> 
<name>mapred.reduce.tasks.speculative.execution</name> 
<value>true</value> 
<description>If true, then multiple instances of some reduce tasks 
may be executed in parallel.</description> 

</property> 





不 过 ，Hive 本 身 也 提供 了 配置 项 来 控制 reduce-side 的 推测 执行 : 


<property> 
<name>hive.mapred.reduce.tasks.speculative.execution</name> 
<value>true</value> 


<description>whether speculative execution for 
reducers should be turned on. </description> 
</property> 








关于 调 优 这 些 推测 执行 变量 ， 还 很 难 给 一 个 具体 的 建议 。 如 果 用 户 
对 于 运行 时 的 偏 甜 非常 敏感 的 话 ， 那 么 可 以 将 这 些 功 能 关闭 挥 。 如 果 用 
户 因 为 输入 数据 量 很 大 而 需要 执行 长 时 间 的 map 或 者 reduce task 的 话 ， 
那么 启动 推测 执行 造成 的 浪费 是 非常 巨大 的 。 














10.13 单个 MapReduce 中 多 个 GROUP BY 


男 一 个 特别 的 优化 试图 将 查询 中 的 多 个 GROUP BY 操作 组 装 到 单个 
MapReduce 任 务 中 。 如 果 想 局 动 这 个 优化 ， 那 么 需要 一 组 常用 的 
GROUP BY 键 : 

<property> 


<name>hive.multigroupby.singlemr</name> 
<value>false</value> 


<description>whether to optimize multi group by query to generate single M/R 
job plan. If the multi group by query has common group by keys, it will be 
optimized to generate single M/R job.</description> 

</property> 





10.14 ”虚拟 列 


Hive 提 供 了 2 种 虚拟 列 : 一 种 用 于 将 要 进行 划分 的 输入 文件 名 ， 为 
一 种 用 于 文件 中 的 块 内 偏 移 量 。 当 Hive 产 生 了 非 预 期 的 或 null 的 返回 结 
果 时 ， 可 以 通过 这 些 虚 拟 列 诊断 查询 。 通 过 查询 这 些 “ 字 段 ?， 用 户 可 以 
查看 到 哪个 文件 甚至 哪 行 数据 导致 出 现 问题 : 





hive> set hive.exec.rowoffset=true; 


hive> SELECT INPUT__FILE__NAME, BLOCK__OFFSET__INSIDE__FILE, line 
> FROM hive_text WHERE line LIKE '%hive%' LIMIT 2; 
har ://file/user/hive/warehouse/hive_text/folder=docs/ 
data. har/user/hive/warehouse/hive_text/folder=docs/README.txt 2243 
http://hive.apache.org/ 


har ://file/user/hive/warehouse/hive_text/folder=docs/ 
data. har/user/hive/warehouse/hive_text/folder=docs/README.txt 3646 
- Hive 0.8.0 ignores the hive-default.xml file, though we continue 





AT FRC RATE A ET TH EEH 
中 间 增 加 了 空 行 。 


第 3 种 虚拟 列 提供 了 文件 的 行 侦 移 量 。 这 个 需要 通过 如 下 参数 显 式 


局 


<property> 
<name>hive.exec.rowoffset</name> 
<value>true</value> 
<description>whether to provide the row offset virtual column</description> 
</property> 


这 样 设置 后 就 可 以 在 类 似 于 如 下 的 查询 中 使 用 了 : 








hive> SELECT INPUT__FILE__NAME, BLOCK__OFFSET__INSIDE__FILE, 
> ROW__OFFSET__INSIDE__BLOCK 


> FROM hive_text WHERE line LIKE '%hive%' limit 2; 
file:/user/hive/warehouse/hive_text/folder=docs/README. txt 2243 0 
file:/user/hive/warehouse/hive_text/folder=docs/README. txt 3646 0 





第 11 章 ”其 他 文件 格式 和 压缩 方法 


Hive 的 一 个 独特 的 功能 就 是 ， Hive 不 会 强制 要 求 将 数据 转换 成 特定 
的 格式 才能 使 用 。Hive 利 用 Hadoop 的 InputFormat API 来 从 不 同 的 数据 源 
读 取 数 据 ， 例 如 文本 格式 、sequence 文 件 格式 ， 甚 至 用 户 自 定义 格 地 。 
同样 地 ， 使 用 OutputFormat API 也 可 以 将 数据 写成 不 同 的 格式 。 


尽管 Hadoop 的 文件 系统 支持 对 于 非 压缩 数据 的 线性 扩展 存储 ， 但 是 
对 数据 进行 压缩 还 是 有 很 大 好 处 的 。 压 缩 通常 都 会 节约 可 观 的 磁盘 空 
间 ， 例 如 ， 基 于 文本 的 文件 可 以 压缩 40% 甚 至 更 高 比例 。 压 缩 同 样 可 以 
增加 吞吐 量 和 性 能 。 这 看 上 去 似乎 并 不 合 和 常理 ， 因 为 压缩 和 解压 缩 会 增 
加 额外 的 CPU 开销 ， 不 过 ， 通 过 减少 载 入 内 存 的 数据 量 而 提高 IO 吞吐 
量 会 更 加 提高 网 络 传输 性 能 。 


Hadoop 的 job 通常 是 IO 密集 型 而 不 是 CPU 密集 型 的 。 如 果 是 这 样 的 
话 ， 压 缩 可 以 提高 性 能 。 不 过 ， 如 果 用 户 的 job 是 CPU 密集 型 的 话 ， 那 
么 使 用 压缩 可 能 会 降低 执行 性 能 。 确 定 是 否 进行 压缩 的 唯一 方法 就 是 学 
试 不 同 的 选择 ， 并 测量 对 比 执行 结 


























11.1 AE Aw ANS aS 


A 会 提供 不 同 的 编 解 码 器 。Hive 中 可 
以 通过 set 命 令 查 看 Hive 配 置 文 件 中 或 Hadoop 配 置 文件 中 配置 的 值 。 


通过 查看 属性 io.compression.codec， 可 以 看 到 编 解 码 器 之 间 是 按照 
逗号 进行 分 割 的 : 











# hive -e "set i0.compression.codecs" 
io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec, 
org.apache.hadoop.io.compress.DefaultCodec, 


org.apache.hadoop.io.compress.BZip2Codec, 
org.apache.hadoop.io.compress.SnappyCodec 





11.2 ”选择 一 种 压缩 编 /解码 妖 


使 用 压缩 的 优势 是 可 以 最 小 化 所 需要 的 磁盘 存储 空间 ， 以 及 减 小 磁 
盘 和 网 络 IO 操 作 。 不 过 ， 文 件 压缩 过 程 和 解压 缩 过 程 会 增加 CPU 开 
销 。 因 此 ， 对 于 压缩 密集 型 的 job 最 好 使 用 压缩 ， 特 别 是 有 和 额外 的 CPU 
资源 或 磁盘 存储 空间 比较 稀缺 的 情况 。 


所 有 最 新 的 那些 Hadoop 版 本 都 已 经 内 置 支持 GZIP 和 BZip2 压 缩 方案 
了 ， 包 括 加 速 对 这 些 格式 的 压缩 和 解压 缩 的 本 地 Liunx 库 。 绑 定 支 持 
Snappy 压 缩 是 最 近 才 增加 的 ， 不 过 ， 如 果 用 户 当前 使 用 的 Hadoop 版 本 不 
支持 该 功能 的 话 ， 那 么 自行 增加 相关 的 库 即 可 中。 另外 ， 还 有 一 种 常用 
的 压缩 方案 ， 即 LZO 压 缩 2。 


那么 ， 为 什么 我 们 需要 不 同 的 压缩 方案 呢 ? 每 一 个 压缩 方案 都 在 压 
缩 / 解 压缩 速度 和 压缩 率 间 进行 权衡 。BZip2 压 缩 率 最 高 ， 但 是 同时 需要 
消耗 最 多 的 CPU 开销 。GZip 是 压缩 率 和 压缩 /解压 缩 速 度 上 的 下 一 个 选 
择 。 因 此 ， 如 果 磁 盘 空 间 利 用 率 和 IO 开销 都 需要 考虑 的 话 ， 那 么 这 2 种 
压缩 方案 都 是 有 吸引 力 的 。 


LZO 和 Snappy 压 缩 率 相 比 前 面 的 2 种 要 小 但 是 压缩 /解压 缩 速度 要 
快 ， 特 别 是 解压 缩 过 程 。 如 宁 相 对 于 磁盘 空间 和 IO 开销 ， 频 党 读 取 数 
据 所 需 的 解压 缩 速度 更 重要 的 话 ， 那 么 它们 将 是 不 错 的 选择 。 


另 一 个 需要 考虑 的 因素 是 压缩 格式 的 文件 是 否 是 可 分 割 的 。 
MapReduce 需 要 将 非常 大 的 输入 文件 分 割 成 多 个 划分 (通常 一 个 文件 块 
对 应 一 个 划分 ， 也 就 是 64MB 的 倍数 ) ， 其 中 每 个 划分 会 被 分 发 到 一 个 
单独 的 map 进 程 中 。 只 有 当 Hadoop 知 道 文件 中 记录 的 边界 时 才 可 以 进行 
这 样 的 分 割 。 对 于 文本 文件 ， 每 一 行 都 是 一 条 记录 ， 但 是 GZip 和 Snappy 
将 这 些 边界 信息 掩盖 掉 了 。 不 过 ，BZip2 和 LZO 提 供 了 块 (BLOCK) 级 
别 的 压缩 ， 也 就 是 每 个 块 中 都 含有 完整 的 记录 信息 ， 因 此 Hadoop 可 以 在 
块 边界 级 别 对 这 些 文件 进行 划分 。 


虽然 GZIip 和 Snappy 压 缩 的 文件 不 可 划分 ， 但 是 并 不 能 因此 而 排除 
它们 。 当 用 户 创建 文件 的 时 候 ， 可 以 将 文件 分 割 成 期 望 的 文件 大 小 。 通 
和 输出 文件 的 个 数 等 于 reducer 的 个 数 。 也 束 是 说 如 果 用 户 使 用 了 N 个 
reducer， 那 么 通常 束 会 得 到 N 个 输出 文件 。 需 要 注意 的 是 ， 如 果 有 一 个 

















不 可 分 割 的 文件 特别 的 大 ， 那 么 就 会 出 现 一 个 单独 的 task 来 读 取 整 个 文 
件 ， 进 行 处 理 。 


关于 压缩 我 们 还 有 更 多 的 内 容 要 说 ， 不 过 我 们 推荐 用 户 参 考 Tom 
White (OReilly) 所 闭 的 《Hadoop 编 程 指 南 》 一 书 ， 这 里 ， 我 们 会 专注 于 
在 Hive 中 如 何 使 用 指定 的 格式 。 


从 Hive 的 角度 来 看 ， 对 于 文件 格式 ， 有 2 个 方面 的 内 容 需 要 说 明 。 
一 个 方面 是 文件 是 怎样 分 隔 成 行 〈 记 录 ) 的。 文本 文件 使 用 \n( 换 行 符 ) 
作为 默认 的 行 分 隔 符 。 当 用 户 没 有 使 用 默认 的 文本 文件 格式 时 ， 用 户 需 
要 告诉 Hive 使 用 的 mmputFomat 和 OutputFormat 是 什么 。 事 实 上， 用 户 需 
要 指定 对 于 输入 和 输出 格式 实现 的 Java 类 的 名 称 。InputFormat 中 定义 了 
如 何 读 取 划分 ， 以 及 如 何 将 划分 分 割 成 记录 ， 而 OutputFormat 中 定义 了 
如 何 将 这 些 划分 写 回 到 文件 或 控制 侣 输出 中 。 


第 2 个 方面 是 记录 是 如 何 分 割 成 字段 〈 或 列 ) 的。Hive 使 用 ^A 作 文 
本 文件 中 默认 的 字段 分 隔 符 。Hive 使 用 SerDe〈 也 就 是 序列 化 / 反 序列 化 
的 简写 ) 作为 对 输入 记录 《上 反 序 列 化 ) 进行 分 割 以 及 写 记 录 《〈 序 列 化 ) 
的 “模板 *。 这 时 ， 用 户 只 需要 指定 可 以 完成 这 2 部 分 工作 的 一 个 Java 类 即 
可 。 


所 有 的 这 些 信息 用 户 在 创建 表 的 时 候 都 可 以 在 表 定 义 语句 中 进行 指 
定 。 创 建 完 成 后 ， 用 户 可 以 像 平 时 一 样 得 询 表 ， 而 无 需 关 心底 层 格式 。 
因此 ， 如 果 用 户 是 Hive 的 使 用 者 ， 而 不 是 Java 工 程 师 ， 束 无 需 关 心 关于 
Java 的 信息 。 如 果 需 要 ， 用 户 所 在 团队 的 工程 师 可 以 帮忙 指定 需要 的 定 
义 信 息 ， 而 之 后 就 可 以 像 之 前 一 样 工作 了 。 
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对 中 间 数 据 进 行 压 缩 可 以 减少 job 中 map 和 reduce task 间 的 数据 传输 
量 。 对 于 中 间 数 据 压 缩 ， 选 择 一 个 低 CPU 开 销 的 编 /解码 器 要 比 选择 一 
个 压缩 率 高 的 编 / 解 码 吉 要 重要 得 多 。 属 性 hive.exec.compress. 
intermediate 的 默认 值 是 false， 如 果 要 开局 中 间 压 缩 ， 就 需要 将 这 个 属性 
值 修 改 为 默认 值 为 true: 











<property> 
<name>hive.exec.compress.intermediate</name> 
<value>true</value> 
<description> This controls whether intermediate files produced by Hive between 


multiple map-reduce jobs are compressed. The compression codec and other options 


are determined from hadoop config variables mapred.output.compress* </description> 
</property> 





as | 
W aR 日 一 
S 提示 


对 于 其 他 Hadoop job 来 说 控制 中 间 数 据 压 缩 的 属性 是 


mapred.compress.map.output 。 


Hadoop 压 缩 默 认 的 编 /解码 器 是 DefaultCodec。 可 以 通过 修改 属性 
mapred.map.output.compression.codec 的 值 来 修改 编 /解码 堪 。 这 是 一 个 
Hadoop 配 置 项 ， 可 以 在 $HADOOP_HOME/conf/mapred-site.xml 文 件 中 或 
$HADOOP_HOME/conf/hive-site.xml 文 件 中 进行 配置 。SnappyCodec 是 
一 个 比较 好 的 中 间 文 件 压缩 编 /解码 器 ， 因 为 其 很 好 地 结合 了 低 CPU 开 
销 和 好 的 压缩 执行 效率 : 


<property> 
<name>mapred.map.output.compression.codec</name> 
<value>org.apache.hadoop.io.compress.SnappyCodec</value> 
<description> This controls whether intermediate files produced by Hive 


between multiple map-reduce jobs are compressed. The compression codec 
and other options are determined from hadoop config variables 
mapred.output.compress* </description> 

</property> 





11.4 ýh AER A 


当 Hive 将 输出 写 入 到 表 中 时 ， 输 出 内 容 同 样 可 以 进行 压缩 。 属 性 
hive.exec. coOmpress.output 控 制 着 这 个 功能 。 用 户 可 能 需要 保持 默认 配置 
文件 中 的 默认 值 false， 这 样 默认 的 输出 就 是 非 压缩 的 纯 文本 文件 了 了。 用 
户 可 以 通过 在 人 查询 语句 或 执行 脚本 中 设置 这 个 值 为 hue， 来 开局 输出 结 
果 压 缩 功 能 : 








<property> 
<name>hive.exec.compress.output</name> 
<value>false</value> 
<description> This controls whether the final outputs of a query 


(to a local/hdfs file or a Hive table) is compressed. The compression 
codec and other options are determined from hadoop config variables 
mapred.output.compress* </description> 

</property> 





“i ”提示 
对 于 其 他 Hadoop 任务 ， 开 启 最 终 输 出 结果 压缩 功能 的 属性 是 


mapred.output.compress. 


如 果 属 性 hive.exec.compress.output 的 值 设 置 为 tue， 那 么 这 时 需要 大 
其 指定 一 个 编 解码 器 。 对 于 输出 文件 ， 使 用 GZip 进 行 压缩 是 个 不 错 的 主 
意 ， 因 为 其 通常 可 以 大 幅度 降低 文件 的 大 小 。 但 是 ， 需 要 记 住 的 是 GZip 
压缩 的 文件 对 于 后 面 的 MapReduce job 而 言 是 不 可 分 割 的 。 








<property> 
<name>mapred.output.compression.codec</name> 
<value>org.apache.hadoop.io.compress.GzipCodec</value> 


<description>If the job outputs are compressed, how should they be compressed? 
</description> 
</property> 





11.5 sequence file 存 储 格 式 


压缩 文件 确实 能 够 节约 存储 空间 ， 但 是 ， 在 Hadoop 中 存储 裸 压缩 文 
件 的 一 个 缺点 就 是 ， 通 种 这 些 文件 是 不 可 分 割 的。 可 分 割 的 文件 可 以 划 
分 成 多 个 部 分 ， 由 多 个 mapper 并 行进 行 处 理 。 大 多 数 的 压缩 文件 是 不 可 
分 割 的 ， 也 就 是 说 只 能 从 头 读 到 尾 。 


Hadoop}it 32 fF Hsequence file 存储 格 式 可 以 将 一 个 文件 划分 成 多 个 
块 ， 然 后 采用 一 种 可 分 割 的 方式 对 块 进行 压缩 。 


如 果 想 在 Hive 中 使 用 sequence file 存 储 格式 ， 那 么 需要 在 CREATE 
TABLE 语 句 中 通过 STORED AS SEQUENCEFILE 语 名 进行 指定 : 


CREATE TABLE a_sequence_file_table STORED AS SEQUENCEFILE， 


Sequence file 提 供 了 3 种 压缩 方式 ， NONE. RECORD#IBLOCK, 8 
认 是 RECORD 级 别 〈( 也 就 是 记录 级 别 ) 。 不 过 ， 通 常 来 说 ，BLOCK 级 
别 〈 也 就 是 块 级 别 ) 压缩 性 能 最 好 而 且 是 可 以 分 制 的 。 和 很 多 其 他 的 压 
缩 属性 一 样 ， 这 个 属性 也 并 非 是 Hive 特 有 的 。 用 户 可 以 在 Hadoop 的 
mapred-site.xml 文 件 中 进行 定义 ， 或 者 在 Hive 的 hive-site.xml 文 件 中 进行 
定义 ， 需 要 的 时 候 ， 还 可 以 在 脚本 中 或 查询 语句 前 进行 指定 : 

















<property> 
<name>mapred.output.compression. type</name> 
<value>BLOCK</value> 


<description>If the job outputs are to compressed as SequenceFiles, 
how should they be compressed? Should be one of NONE, RECORD or BLOCK. 
</description> 

</property> 





11.6 ”使 用 压缩 实践 


我 们 已 经 介绍 了 Hive 中 可 以 使 用 的 一 些 压 缩 相 关 的 配置 属性 ， 这 些 
属性 的 不 同 组 合 方式 将 会 产生 不 同 的 输出 。 下 面 ， 让 我 们 在 一 些 例 子 中 
使 用 这 些 属性 ， 然 后 展示 下 它们 的 输出 将 会 是 什么 。 需 要 注意 的 是 ， 
CLI 中 通过 set 命 令 设置 的 属性 在 同一 个 会 话 中 会 一 直 生 效 的 。 因 此 ， 同 
一 个 会 话 中 的 不 同 例子 间 应 该 注意 将 设置 复原 ， 或 者 直接 重 开局 一 个 


Hive 会 话 : 














hive> SELECT * FROM a; 
4 
3 2 


hive> DESCRIBE a; 
a int 
b int 








首先 ， 我 们 先 开局 中 间 数 据 压缩 功能 。 这 将 不 会 影响 到 最 终 输 出 结 
果 。 不 过 从 job 的 计数 器 信息 上 看 ， 可 以 发 现 这 个 job 中 间 传 送 的 数据 量 
变 小 了 ， 因 为 shuffle sort( 混 洗 排 序 ) 数 据 被 压缩 了 : 


hive> set hive.exec.compress.intermediate=true; 
hive> CREATE TABLE intermediate_comp_on 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
> AS SELECT * FROM a; 
Moving data to: file:/user/hive/warehouse/intermediate_comp_on 
Table default.intermediate_comp_on stats: [num_partitions: ©, num_files: 1, 
num_rows: 2, total_size: 8, raw_data_size: 6] 





和 预期 的 一 样 ， 中 间 数 据 压 缩 没有 影响 到 最 终 的 输出 ， 最 终 的 数据 
结果 仍然 是 非 压缩 的 : 
hive> dfs -ls /user/hive/warehouse/intermediate_comp_on; 


Found 1 items 
/user/hive/warehouse/intermediate_comp_on/000000_0 


hive> dfs -cat /user/hive/warehouse/intermediate_comp_on/000000_0; 
4 
3 2 











我 们 同样 可 以 为 中 间 数 据 压缩 配置 其 他 的 编 / 解 码 器 而 不 使 用 默认 
的 编 / 解 码 占 。 下 面 这 个 例子 ， 我 们 选择 使 用 GZip 尺 省 通常 Snappy 是 
更 好 的 选择 ) 。 为 显示 清晰 ， 将 下 面 语 句 中 的 第 1 行 分 成 了 2 行 : 


hive> set mapred.map.output.compression.codec 
=org.apache.hadoop.io.compress.GZipCodec; 
hive> set hive.exec.compress.intermediate=true; 


hive> CREATE TABLE intermediate_comp_on_gz 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
> AS SELECT * FROM a; 
Moving data to: file:/user/hive/warehouse/intermediate_comp_on_gz 
Table default.intermediate_comp_on_gz stats: 
[num_partitions: ©, num_files: 1, num_rows: 2, total_size: 8, raw_data_size:6] 


hive> dfs -cat /user/hive/warehouse/intermediate_comp_on_gz/000000_0; 


4 5 
2 


下 一 步 ， 我 们 可 以 开局 输出 结果 压缩 : 





hive> set hive.exec.compress.output=true; 


hive> CREATE TABLE final_comp_on 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
> AS SELECT * FROM a; 
Moving data to: file:/tmp/hive-edward/hive_2012-01-15_11-11-01_884_.../-ext-10001 
Moving data to: file:/user/hive/warehouse/final_comp_on 
Table default.final_comp_on stats: 
[num_partitions: ©, num_files: 1, num_rows: 2, total_size: 16, raw_data_size:6] 


hive> dfs -ls /user/hive/warehouse/final_comp_on; 
Found 1 items 
/user/hive/warehouse/final_comp_on/000000_0.deflate 





输出 信息 中 的 表 统 计 信息 显示 total_size〈 总 大 小 ) 是 16B， 但 是 
raw_data_size〈 裸 数据 ) 是 6B， 多 出 的 存储 空间 是 被 deflate 算 法 消耗 
了 。 同 时 我 们 可 以 看 到 ， 输 出 的 文件 后 级 名 是 .deflate。 


不 推荐 使 用 cat 命 令 来 查看 这 个 压缩 文件 ， 因 为 用 户 只 能 看 到 二 进 制 
输出 。 不 过 ，Hive 可 以 正常 地 查询 这 个 数据 : 


hive> dfs -cat /user/hive/warehouse/final_comp_on/000000_0.deflate; 
. UGLYBINARYHERE ... 


hive> SELECT * FROM final_comp_on; 





这 种 无 颖 的 处 理 压 缩 文 件 的 能 力 并 非 是 Hive 独 有 的 ， 实 际 上 ， 这 里 
是 使 用 了 Hadoop 的 TextInputFormat 进 行 的 处 理 。 尽 管 在 这 种 情况 下 这 个 
俞 名 有 些 令 人 混 清 ， 但 是 TextInputFormat 可 以 识 别 文件 后 名 级 名 为 .deflate 
或 gz 的 压缩 文件 ， 并 且 可 以 很 轻松 地 进行 处 理 。Hive 无 需 关 心底 层 的 文 
件 是 否 是 压缩 的 ， 以 及 是 使 用 何 种 压缩 方案 进行 压缩 的 。 





P 面 我 们 改变 下 输出 结果 压缩 所 使 用 的 编 解 码 器 ， 然 后 看 下 结 宁 
《这 里 语句 的 第 2 行为 了 显示 清晰 ， 也 分 成 2 行 了 ) : 








hive> set hive.exec.compress.output=true; 

hive> set mapred.output.compression.codec 
=org.apache.hadoop.io.compress.GzipCodec; 

hive> CREATE TABLE final_comp_on_gz 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
> AS SELECT * FROM a; 


Moving data to: file:/user/hive/warehouse/final_comp_on_gz 
Table default.final_comp_on_gz stats: 
[num_partitions: ©, num_files: 1, num_rows: 2, total_size: 28, raw_data_ size:6] 


hive> dfs -ls /user/hive/warehouse/final_comp_on_gz; 
Found 1 items 
/user/hive/warehouse/final_comp_on_gz/000000_0.gz 


正如 用 户 可 以 看 到 的 ， 输 出 文件 夹 下 现在 包含 了 零 个 或 多 个 .gz 文 
件 。Hive 提 供 了 在 Hive shell 中 执行 像 zcat 这 样 的 本 地 命令 的 快速 方法 。 
通过 ! 符 写 ，Hive 可 以 执行 外 部 的 命令 ， 直 到 返回 结 


zcat 是 一 个 命令 行 实用 程序 ， 用 来 解压 缩 ， 并 进行 输出 显示 : 





hive> ! /bin/zcat /user/hive/warehouse/final_comp_on_gz/000000_0.gz; 
4 

3 2 

hive> SELECT * FROM final_comp_on_gz; 

OK 





Time taken: 0.159 seconds 


使 用 这 种 输出 压缩 能 够 完成 那 种 很 小 ， 操 作 起 来 很 快 的 文件 的 二 进 
制 压缩 。 不 过 ， 回 想 一 下 ， 输 出 文件 的 个 数 是 和 处 理 数 据 所 需要 的 
mapper 个 数 或 reducers 个 数 有 关 的 。 在 最 坏 的 情况 下 ， 可 能 最 终结 果 是 
文件 夹 中 只 产生 了 一 个 大 的 压缩 文件 ， 而 且 是 不 可 分 割 的 。 这 意味 着 后 
续 步 又 并 不 能 并 行 地 处 理 这 个 数据 。 解 决 这 个 问题 的 答案 就 是 使 用 


sequence file: 











hive> set mapred.output.compression.type=BLOCK; 
hive> set hive.exec.compress.output=true; 
hive> set mapred.output.compression.codec=org.apache.hadoop.io.compress. GzipCodec; 


hive> CREATE TABLE final_comp_on_gz_seq 

> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 

> STORED AS SEQUENCEFILE 

> AS SELECT * FROM a; 
Moving data to: file:/user/hive/warehouse/final_comp_on_gz_seq 
Table default.final_comp_on_gz_seq stats: 


[num_partitions: ©, num_files: 1, num_rows: 2, total_size: 199, raw_data_ size: 6] 


hive> dfs -ls /user/hive/warehouse/final_comp_on_gz_seq; 
Found 1 items 
/user/hive/warehouse/final_comp_on_gz_seq/000000_0 








Sequence file 是 二 进 制 格式 的 ， 但 是 ， 我 们 可 以 很 容易 地 查询 文件 
头 。 通 过 得 看 文件 头 可 以 确认 结果 是 否 是 我 们 需要 的 〈 为 方便 显示 ， 输 
出 格式 进行 了 调整 ) : 


hive> dfs -cat /user/hive/warehouse/final_comp_on_gz_seq/000000_0; 


SEQ[]org.apache.hadoop.io.Byteswritable[ ]org.apache.hadoop.io.ByteswWritable[ ] 
org.apache.hadoop.io.compress.GzipCodec[ ] 





因为 sequence file ik A HY 70 Hei 13 J, DA Xe Hivesc adits i, Hive 
需 任 何 特别 的 设置 就 可 以 查询 这 张 表 。Hadoop 同 样 提 供 了 dfs -text 命 令 
来 从 sequence file 文 件 中 去 除 挥 文件 涉 和 压缩 ， 然 后 显示 裸 数 据 : 


hive> dfs -text /user/hive/warehouse/final_comp_on_gz_seq/000000_0; 
4 5 
3 2 

hive> select * from final_comp_on_gz_seq; 

OK 





最 后 ， 我 们 来 同时 使 用 直接 数据 压缩 和 最 终 输 出 数据 压缩 ， 而 且 使 
用 不 同 压缩 编 / 解 码 器 的 sequence file! 这 些 设 置 通常 应 用 在 生产 环境 ， 
这 些 环境 中 的 数据 集 很 大 ， 而 这 些 设 置 可 以 提高 其 性 能 : 





hive> set mapred.map.output.compression.codec 
.apache.hadoop.io.compress.SnappyCodec; 
set hive.exec.compress.intermediate=true; 
set mapred.output.compression. type=BLOCK; 
set hive.exec.compress.output=true; 


set mapred.output.compression.codec 
.apache.hadoop.io.compress.GzipCodec; 





CREATE TABLE final_comp_on_gz_int_compress_snappy_seq 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
> STORED AS SEQUENCEFILE AS SELECT * FROM a; 





11.7 存档 分 区 


Hadoop 中 有 一 种 存储 格式 名 为 HAR， 也 就 是 Hadoop 

Archive (Hadoop 归 档 文件 ) 的 简写 。 一 个 HAR 文 件 就 像 在 HDFS 文 件 系 
统 中 的 一 个 TAR 文 件 一 样 是 一 个 单独 的 文件 。 不 过 ， 其 内 部 可 以 存放 多 
个 文件 和 文件 夹 。 在 一 些 使 用 场景 下 ， 较 旧 的 文件 夹 和 文件 比较 新 的 文 
件 夹 和 文件 被 访问 的 概率 要 低 很 多 。 如 果菜 个 特定 的 分 区 下 保存 的 文件 
有 成 千 上 万 的 话 ， 那 么 就 需要 HDFS 中 的 NameNode 消 耗 非常 大 的 代价 来 
管理 这 些 文件 。 通 过 将 分 区 下 的 文件 归档 成 一 个 巨大 的 ， 但 是 同时 可 以 
被 Hive 访 问 的 文件 ， 可 以 减轻 NameNode 的 压力 。 不 过 其 缺点 是 ，HAR 
e 同时 ，HAR 文 件 并 非 是 压缩 的 ， 因 此 也 不 会 节约 存 
诸 空间 。 


在 下 面 的 例子 中 ， 我 们 将 使 用 Hive 自 带 的 文件 作为 表 数 据 。 
首先 ， 创 建 一 个 分 区 表 ， 然 后 将 Hive 包 中 上 自 带 的 文件 加 载 到 表 中 


hive> CREATE TABLE hive_text (line STRING) PARTITIONED BY (folder STRING); 








hive> ! ls $HIVE_HOME; 
LICENSE 

README.txt 
RELEASE_NOTES.txt 


hive> ALTER TABLE hive_text ADD PARTITION (folder='docs'); 


hive> LOAD DATA INPATH '${env:HIVE_HOME}/README.txt' 
> INTO TABLE hive_text PARTITION (folder='docs'); 
Loading data to table default.hive_text partition (folder=docs) 


hive> LOAD DATA INPATH '${env:HIVE_HOME}/RELEASE_NOTES.txt' 
> INTO TABLE hive_text PARTITION (folder='docs'); 
Loading data to table default.hive_text partition (folder=docs) 


hive> SELECT * FROM hive text WHERE line LIKE '%hive%' LIMIT 2; 
http://hive.apache.org/ docs 
- Hive 0.8.0 ignores the hive-default.xml file, though we continue docs 





某 些 Hadoop 版 本 〈 例 如 Hadoop v0.20.2 版 本 ) 要 求 包含 Hadoop 归 档 
工具 接口 的 JAR 包 要 放置 在 Hive 的 auxlib 路 径 下 : 


$ mkdir $HIVE_HOME/auxlib 


$ cp $HADOOP_HOME/hadoop-0.20.2-tools.jar $HIVE_HOME/auxlib/ 








在 归档 之 前 ， 我 们 来 看 下 这 个 表 下 面 的 奔 层 目录 结构 。 需 要 注意 的 
是 ， 表 下 面 的 数据 是 存储 在 分 区 目录 下 的 ， 因 为 这 十 一 个 管理 分 区 表 : 





hive> dfs -ls /user/hive/warehouse/hive_text/folder=docs; 
Found 2 items 


/user/hive/warehouse/hive_text/folder=docs/README. txt 
/user/hive/warehouse/hive_text/folder=docs/RELEASE_NOTES. txt 





ALTER TABLE ... ARCHIVE PARTITION 语 句 将 表 转 化 成 了 一 个 归 
档 表 : 


hive> SET hive.archive.enabled=true; 
hive> ALTER TABLE hive_text ARCHIVE PARTITION (folder='docs'); 
intermediate.archived is 

file: /user/hive/warehouse/hive_text/folder=docs_INTERMEDIATE_ARCHIVED 
intermediate.original is 

file: /user/hive/warehouse/hive_text/folder=docs_INTERMEDIATE_ORIGINAL 
Creating data.har for file:/user/hive/warehouse/hive_text/folder=docs 
in file:/tmp/hive-edward/hive_..._3862901820512961909/-ext-10000/partlevel 
Please wait... (this may take a while) 
Moving file:/tmp/hive-edward/hive_..._3862901820512961909/-ext-10000/partlevel 
to file:/user/hive/warehouse/hive_text/folder=docs_INTERMEDIATE_ARCHIVED 
Moving file:/user/hive/warehouse/hive_text/folder=docs 
to file:/user/hive/warehouse/hive_text/folder=docs_INTERMEDIATE_ORIGINAL 
Moving file: /user/hive/warehouse/hive_text/folder=docs_INTERMEDIATE_ARCHIVED 
to file:/user/hive/warehouse/hive_text/folder=docs 


(对 于 上 面 的 输出 ， 为 便于 展示 ， 我 们 对 其 格式 进行 了 调整 ， 并 使 
用 .… 蔡 换 掉 输出 中 的 时 间 戳 。) 


下 面 这 张 表 中 由 之 前 的 两 个 文件 变 成 了 现在 的 一 个 Hadoop 归 档 文 件 
(也 就 是 HAR 文 件 ) : 





hive> dfs -ls /user/hive/warehouse/hive_text/folder=docs; 
Found 1 items 


/user/hive/warehouse/hive_text/folder=docs/data.har 





ALTER TABLE ... UNARCHIVE PARTITION 命 令 可 以 将 HAR 中 的 
文件 提取 出 来 然后 重新 放置 到 HDFS 中 : 


ALTER TABLE hive_text UNARCHIVE PARTITION (folder='docs'); 





11.8 JK: 包扎 


Hive 可 以 读 和 写 不 同类 型 的 压缩 文件 ， 确 实 可 以 获取 很 大 的 性 能 提 
升 ， 因 为 其 可 以 市 约 磁 存 储 空间 以 及 处 理 开销 。 这 种 灵活 性 同样 也 有 助 
于 和 其 他 工具 进行 集成 ， 因 为 Hive 无 需 使 用 Java 编 写 的 自 定义 的 “ 适 配 
虱 ” 束 可 以 伍 询 很 多 本 地 文件 类 型 。 














[1]See http://code.google.com/p/hadoop-snappy/). 


[2]See http://wiki.apache.org/hadoop/UsingLzoCompression). 
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Hive 个 可 能 满足 用 户 的 所 有 需求 ， 有 时 一 个 第 三 方 的 库 可 以 填补 这 
个 空白 。 而 其 他 情况 下 ， 用 户 或 其 他 本 身 是 Java 开 发 工程 师 的 人 员 可 能 
再 要 开发 一 些 用 户 目 定义 函数 〈 也 就 是 UDF， 参 考 第 13 章 的 介绍 ) . F 
列 化 / 反 序列 化 器 (也 就 是 SerDe， 参 考 第 15.4 广 “记录 格式 : SerDe”) 、 
输入 或 者 输出 文件 格式 (参考 第 15 章 中 的 介绍 ) 或 者 其 他 一 些 增强 功 


au, 
HE o 





本 章 将 探讨 Hive 自 身 的 源 代码 ， 其 中 包括 Hive v0.8.0 版 本 中 新 增 的 
开发 工具 包 插 件 〈( 也 就 是 PDK) 。 


12.1 修改 Log4J 属 性 


Hive 可 以 通过 $HIVE_HOME/conf 目 录 下 的 2 个 Log4J 配 置 文件 来 配 
置 日 志 。 其 中 hive-log4j.properties 文 件 用 来 控制 CLI 和 其 他 本 地 执行 组 件 
的 日 志 ; 而 hive-exec-log4j.properties 文 件 用 来 控制 MapReduce task 内 的 

志 ， 这 个 文件 并 非 必 须 在 Hive 安 闭 目 录 下 存在 ， 因 为 Hive JARE F E 
经 包含 了 默认 属性 值 。 事 实 上 ，conf 目 录 下 的 文件 是 带 有 .template 文 件 
扩展 名 的 ， 因 此 默认 是 不 会 被 加 载 的 。 如 果 想 使 用 这 2 个 配置 ， 只 需要 
将 .template 扩 展 名 去 挥 ， 然 后 按 需 要 进行 修改 束 可 以 了 : 








$ cp conf/hive-log4j.properties.template conf/hive-1log4j.properties 


$ ... edit file... 








也 可 以 临时 地 改变 日 志 配 置 而 无 需 拷 贝 和 修改 Log4J 文 件 。 在 Hive 
Shell 启 动 时 可 以 通过 hiveconf 参 数 指定 log4.properties 文 件 中 的 任意 属 
性 。 例 如 ， 下 面 的 语句 指定 输出 日 志 为 DEBUG 级 别 ， 而 且 输 出 到 控制 


er 


$ bin/hive -hiveconf hive.root.logger=DEBUG, console 
12/03/27 08:46:01 WARN conf.HiveConf: hive-site.xml not found on CLASSPATH 


12/03/27 08:46:01 DEBUG conf.Configuration: java.io.IOException: config() 





12.2 ”连接 Java 调 试 器 到 Hive 


当 开 局 详细 输出 也 无 法 帮助 找到 解决 问题 的 办 法 时 ， 可 以 通过 附加 
一 个 Java 调 试 器 ， 对 Hive 代 码 进 行 单 步调 试 ， 来 找到 问题 所 在 。 


远程 调试 是 Java 提 供 的 一 个 功能 ， 其 可 以 通过 命令 行 对 JVM 指 定 参 
数 后 进行 局 动 。Hive Shell 脚 本 提供 了 一 个 开关 和 控制 台 帮 助 信息 帮助 
他 人 (为 了 便于 页 面 展示 ， 下 面 输出 信息 中 有 部 分 
言 妃 省 略 掉 了 ) : 


$ bin/hive --help --debug 
Allows to debug Hive by connecting to it via JDI API 
Usage: hive --debug[:comma-separated parameters list] 





Parameters: 


recursive=<y | n> Should child JVMs also be started in debug mode. Default:y 
port=<port_number> Port on which main JVM listens for debug connection. Defaul... 
mainSuspend=<y | n> Should main JVM wait with execution for the debugger to con... 
childSuspend=<y | n> Should child JVMs wait with execution for the debugger toc... 
swapSuspend Swaps suspend options between main and child JVMs 





12.3 ”从 源 公 编译 Hive 


使 用 Apache 的 Hive 发 行 版 通常 是 个 不 错 的 选择 ， 不 过 用 户 可 能 需要 
N 或 者 使 用 的 是 一 个 非 公 开 的 上 自己 定制 的 内 
部 分 文 。 


因此 ， 用 户 将 需要 对 Hive 进 行 源码 编译 。 编 译 Hive 的 最 低 要 求 是 ， 
需要 一 个 较 新 版 本 的 Java JDK、Subversion 和 ANT。Hive 也 包含 了 一 些 
默认 不 会 进行 编译 的 组 件 ， 例 如 通过 Thrift 生 成 的 一 些 类 。 如 果 期 望 对 
Hive 完 成 重 编译 ， 那 么 还 需要 安装 好 Thrift 编 译 器 。 


下 面 的 系列 命令 分 别 是 从 svn 中 下 载 一 份 Hive 发 行 版 代码 ， 然 后 对 
源码 进行 编译 ， 编 译 后 会 在 hive-trunk/build/dist 目 录 下 生成 结 


$ svn co http://svn.apache.org/repos/asf/hive/trunk hive-trunk 
$ cd hive-trunk 
$ ant package 


$ ls build/dist/ 
bin examples LICENSE README.txt scripts 
conf lib NOTICE RELEASE_NOTES. txt 





12.3.1 执行 Hive 测 试用 例 


Hive 本 映 有 一 个 独特 的 内 置 的 测试 框架 。Hive 确 实 有 传统 的 JUnit 测 
试用 例 ， 不 过 主要 的 测试 还 是 通过 执行 以 .gq 结尾 的 文件 ， 然 后 将 执行 结 
果 和 之 前 的 执行 结果 文件 中 进行 比 对 来 进行 的 。 在 Hive 源 码 目录 下 有 很 
多 的 目录 。 其 中 ， 有 “正面 ?的 测试 ， 也 就 是 结果 应 该 是 正确 的 测试 ， 还 
有 “反面 ”的 测试 ， 也 就 是 执行 结果 应 该 是 失败 的 测试 。 


正面 的 测试 是 一 个 符合 语法 规则 的 得 询 ， 而 负面 的 测试 是 一 个 不 符 
合 语 法 规则 的 或 者 尝试 做 一 些 HiveQL 不 允许 做 的 操作 : 





$ ls -lah ql/src/test/queries/ 

total 76K 

drwxrwxr-x. 7 edward edward 4.0K May 28 2011 . 

drwxrwxr-x. 8 edward edward 4.0K May 28 2011 .. 

drwxrwxr-x. 3 edward edward 20K Feb 21 20:08 clientnegative 


drwxrwxr-x. 3 edward edward 36K Mar 8 09:17 clientpositive 
drwxrwxr-x. 3 edward edward 4.0K May 28 2011 negative 
drwxrwxr-x. 3 edward edward 4.0K Mar 12 09:25 positive 





可 以 看 一 下 ql/src/test/queries/clientpositive/cast1.g 这 个 文件 。 用 户 需 
要 知道 的 是 ， 在 测试 过 程 中 会 站 先 自动 创建 一 张 名 为 src 的 表 。 表 src 具 
有 2 个 字段 ， 也 就 是 INT 类 型 的 字段 key 和 STRING 类 型 的 字段 value。 因 
为 Hive 目 前 还 不 支持 没有 FROM 语句 的 SELECT 查询， 所 以 对 于 一 些 函 
数 的 测试 有 一 个 技巧 ， 那 就 是 通过 “人 硬 编码 ”函数 的 输入 进行 测试 ， 而 无 
需 真正 访问 表 中 的 数据 。 


正如 用 户 在 下 面 的 例子 中 所 看 到 的 ， 在 SELECT 语 句 中 ，src 表 中 的 
数据 永远 没有 使 用 到 |: 











hive> CREATE TABLE dest1(c1 INT, c2 DOUBLE, c3 DOUBLE, 
> c4 DOUBLE, c5 INT, c6 STRING, c7 INT) STORED AS TEXTFILE; 


hive> EXPLAIN 
> FROM src INSERT OVERWRITE TABLE dest1 
> SELECT 3 + 2, 3.0 + 2, 3 + 2.0, 3.0 + 2.0, 
> 3 + CAST(2.0 AS INT) + CAST(CAST(@ AS SMALLINT) AS INT), 
> CAST(1 AS BOOLEAN), CAST(TRUE AS INT) WHERE src.key = 86; 


hive> FROM src INSERT OVERWRITE TABLE dest1 
> SELECT 3 + 2, 3.0 + 2, 3 + 2.0, 3.0 + 2.0, 
> 3 + CAST(2.0 AS INT) + CAST(CAST(O AS SMALLINT) AS INT), 
> CAST(1 AS BOOLEAN), CAST(TRUE AS INT) WHERE src.key = 86; 





hive> SELECT dest1.* FROM dest1; 


上 面 这 个 脚本 的 输出 可 以 在 gl/src/test/results/clientpositive/cast1.q.out 
这 个 文件 中 找到 。 这 个 输出 结果 文件 太 大 了 ， 如 果 这 里 展示 完整 的 结果 
的 话 ， 就 太 浪 费 纸 张 了 。 不 过 ， 增 加 这 个 文件 也 没有 价值 。 

如 下 命令 展示 的 是 Hive 客 户 端 分 别 执行 一 个 正面 的 测试 用 例 和 一 个 
负面 的 测试 用 例 : 


ant test -Dtestcase=TestCliDriver -Dqfile=mapreduce1.d 


ant test -Dtestcase=TestNegativeCliDriver -Dqfile=script_broken_pipe1.q 








上 面 两 个 测试 仅仅 是 解析 了 和 碍 询 语句 ， 它 们 实际 上 并 没有 在 客户 端 
执行 。 现 在 它们 已 经 被 启用 了 ， 而 推荐 使 用 clientpositive 和 clientnegative 
RX I 

用 户 同 样 可 以 在 一 次 ant 调 用 过 程 中 执行 多 个 测试 脚本 ， 这 样 可 以 
节约 时 间 (注意 下 耐 -Dqfile=... 后 面 的 字符 串 是 一 个 完整 的 字符 串 ， 展 
示 在 多 行 是 为 了 便于 排版 ) : 








ant test -Dtestcase=TestCliDriver -Dqfile=avro_change_schema.q,avro_ joins.q, 
avro_schema_error_message.qg, avro_evolved_schemas.q,avro_sanity_test.q, 








avro_schema_literal.q 


12.3.2 ”执行 hook 


| 前 置 hook 和 后 置 hook 是 允许 用 户 进行 hook 编 码 ， 然 后 在 Hive 中 进行 
编译 并 执行 自 定 义 代 码 的 实用 工具 。Hive 的 测试 框架 就 使 用 了 hook 来 执 
行 不 会 产生 输出 的 命令 ， 因 此 结果 只 会 在 测试 内 部 出 现 : 
PREHOOK: query: CREATE TABLE dest1(c1 INT, c2 DOUBLE, c3 DOUBLE, 


c4 DOUBLE, c5 INT, c6 STRING, c7 INT) STORED AS TEXTFILE 
PREHOOK: type: CREATETABLE 


POSTHOOK: query: CREATE TABLE desti(ci INT, c2 DOUBLE, c3 DOUBLE, 
c4 DOUBLE, c5 INT, c6 STRING, c7 INT) STORED AS TEXTFILE 





12.4 配置 Hive 和 Eclipse 


Eclipse 是 一 个 开源 的 IDE《〈 集 成 开发 环境 ) 。 通 过 如 下 操作 可 以 让 
Hive 代 码 在 Eclipse 中 使 用 : 


$ ant clean package eclipse-files 
$ cd metastore 

$ ant model-jar 

$ cd ../ql 

$ ant gen-test 


一 旦 编译 后 ， 用 户 束 可 以 将 工程 导入 到 Edlipse 中 ， 然 后 按 通 常 使 用 
的 方式 使 用 残 可 以 了 。 


按 常 规 方式 ， 首 克 在 Eclipse 中 创建 一 个 工作 空 lA] Cworkspace) ， 
然后 使 用 File (文件 ) Import (SA) 命令 ， 再 选择 General (常规 ) 
+ Existing Projects into Workspace( 导 入 已 经 存在 的 工程 到 工作 空间 中 )， 
最 后 选择 Hive 源 码 所 在 的 目录 即 可 。 

当 出 现 向 导 中 列举 的 系列 工程 名 称 时 ， 应 该 可 以 看 到 其 中 有 一 个 是 
名 为 hive-trunk 的 工程 ， 用 户 只 需要 选择 这 个 工程 然后 按 Finish (完成 ) 
WHJ DA T o 


图 12-1 展 示 了 如 何在 Eclipse 中 启动 Hive 命 令 行 CLI 驱 动 右 。 
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图 12-1 在 Eclipse 中 启动 Hive 命 令 行 CLI 驱 动 器 


12.5 “Maven 工 程 中 使 用 Hive 

用 户 可 以 在 Maven 编 译 中 设置 Hive 为 依赖 包 。Maven 资 源 库 
http://mvnrepository.com/artifact/org.apache.hive/hive-service 中 包含 了 最 新 
的 发 行 版 。 

这 个 页 面 里 同样 列 出 了 hive-service 所 需要 的 依赖 包 。 


下 面 是 Hive v0.9.0 版 本 的 顶级 依赖 关系 定义 ， 这 里 没有 包含 与 之 相 
关 的 依赖 树 ， 因 为 实在 太 多 了 : 





<dependency> 
<groupId>org.apache.hive</groupId> 


<artifactId>hive-service</artifactId> 
<version>0.9.0</version> 
</dependency> 





为 我 们 后 面 将 讲 到 的 hive_test 准 备 的 pom.xml 文 件 包含 J Hive v0.9.0 
版 本 完整 的 依赖 树 关 系 。 用 户 可 以 通过 如 下 链接 查看 这 个 文 
件 : https://github.com/edwardcapriolo/hive_test/blob/master/pom.xml。 


12.6 Hive 中 使 用 hive test 进行 单元 测试 


还 有 一 种 使 用 Hive 的 方式 就 是 利用 Thrift 通 过 HiveService 来 访问 
Hive， 然 后 写 一 些 应 用 。 不 过 ， 因 为 Hive 需 要 众多 的 JAR 依 赖 以 及 元 数 
据 模 块 ，Thrift 服 务 通常 难以 在 舱 入 式 的 环境 中 使 用 。 


hive_test 从 Maven 中 获取 到 所 有 的 Hive 依 赖 ， 并 且 在 本 地 建立 起 元 
数据 和 Thrift 服 务 ， 然 后 提供 测试 类 来 让 单元 测试 更 加 简单 。 同 时 ， 
为 其 是 非常 轻 量 级 的 ， 所 以 单元 测试 执行 得 很 快 。 当 然 ， 这 是 相对 于 在 
Hive 中 通过 test 模 块 进行 测试 而 言 的 ， 因 为 后 者 需要 重 编译 整个 工程 ， 
然后 才能 执行 某 个 单元 测试 。 


hive_test 是 测试 如 UDF、 输 入 格式 、SerDe 或 其 他 作为 HiveQL 语 言 
插件 的 模块 代码 的 理想 方式 。 不 过 这 个 无 助 于 内 部 的 Hive 开 发 ， 因 为 所 
有 的 Hive 组 件 都 是 从 Maven 中 拖 下 来 的 ， 而 且 都 是 属于 工程 之 外 的 。 


在 Maven 工 程 中 ， 创 建 一 个 pom.xml 文 件 ， 然 后 按 如 下 的 方式 将 
hive_test 作 为 依赖 项 加 入 : 

















<dependency> 
<groupId>com.jointhegrid</groupId> 


<artifactId>hive_test</artifactId> 
<version>3.0.1-SNAPSHOT</version> 
</dependency> 





然后 创建 一 个 hive-site.xml 文 件 : 


$ vi src/test/resources/hive-site. xml 

和 常规 的 hive-site.xml 文 件 不 同 的 是 ， 这 个 版 本 的 配置 文件 不 应 该 
保存 任何 数据 到 一 个 永久 的 地 方 。 这 是 因为 单元 测试 并 不 应 该 创建 或 保 
存 任 何 永久 的 状态 。 将 javax.jdo.option.ConnectionUREL 这 个 属性 设置 为 
使 用 Derby 作 为 数据 库 ， 这 样 就 只 会 将 数据 库 保 存在 主 内 存 中 。 数 据 仓 
库 目录 hive .metastore.warehouse.dir 设 置 为 /tmp 下 的 某 个 目录 ， 这 样 每 次 
执行 的 单元 测试 都 会 被 删除 掉 : 


<configuration> 











<property> 
<name>javax.jdo.option.ConnectionURL</name> 
<value>jdbc:derby:memory:metastore_db;create=true</value> 
<description>JDBC connect string for a JDBC metastore</description> 
</property> 


<property> 

<name>hive.metastore.warehouse.dir</name> 

<value>/tmp/warehouse</value> 

<description>location of default database for the warehouse</description> 
</property> 


</configuration> 





hive_testtz tt TENI 展 了 JUnit 测 试用 例 的 类 。HiveTestService 会 
先 初 始 化 好 环境 ， 清 空 数据 仓库 目录 ， 然 后 会 在 进程 中 启动 元 数据 服务 
和 HiveService。 其 通常 是 扩展 测试 的 组 件 。 不 过 ， 其 他 组 件 〈( 例 如 
HiveTestEmbedded> 同样 是 可 使 用 的 : 








package com.jointhegrid.hive_test; 
import java.io.Bufferedwriter; 
import java.io. IOException; 

import java.io.OutputStreamwriter; 


import org.apache.hadoop.fs.FSDataOutputStream; 
import org.apache.hadoop.fs.Path; 


/* Extending HiveTestService creates and initializes 
the metastore and thrift service in an embedded mode */ 
public class ServiceHiveTest extends HiveTestService { 


public ServiceHiveTest() throws IOException { 
super(); 


public void testExecute() throws Exception { 


/* Use the Hadoop filesystem API to create a 

data file */ 

Path p = new Path(this.ROOT_DIR, "afile"); 

FSDataOutputStream o = this.getFileSystem().create(p); 
Bufferedwriter bw = new Bufferedwriter(new OutputStreamwriter(o)); 
bw.write("1\n"); 

bw.write("2\n"); 

bw.close(); 


/* ServiceHive is a component that connections 
to an embedded or network HiveService based 

on the constructor used */ 

ServiceHive sh = new ServiceHive(); 


/* We can now interact through the HiveService 
and assert on results */ 
sh.client.execute("create table atest (num int)"); 
sh.client.execute("load data local inpath '" 

+ p.toString() + "' into table atest"); 
sh.client.execute("select count(1) as cnt from atest"); 


String row = sh.client.fetchOne(); 
assertEquals("2", row); 
sh.client.execute("drop table atest"); 





12.7 ”新 增 的 插件 开发 工具 箱 (PDK) 


Hive v0.8.0 版 本 中 新 加 入 了 一 个 插件 开发 工具 箱 (PDK) 。PDK 的 
目的 是 允许 开发 者 可 以 无 需 Hive 源 码 ， 而 仅仅 需要 二 进 制 代 码 即 可 编译 
和 测试 插件 。 


PDK 相 对 较 新 ， 而 且 其 本 喘 因 为 有 一 些 理 手 的 pug， 上 所 以 比较 难 
用 。 如 果 不 管 怎样 想 党 试 使 用 PDK 的 话 ， 那 么 可 以 参考 如 下 的 wiki 页 
面 : https://cwiki.apache.org/Hive/plugindeveloperkit.html。 不 过 要 注意 这 
个 页 面 中 也 有 一 些 错 误 ， 人 至 少 在 写本 书 时 还 是 存在 一 些 错误 的 。 











[也 就 是 说， 它们 更 像 是 功能 或 可 用 性 测试 。 


HAZE KA 


HP Be CPR (UDF) 是 一 个 允许 用 户 扩 展 HiveQL 的 强大 的 功 
能 。 正 如 我 们 将 看 到 的 ， 用 户 使 用 Java 进 行 编 码 。 一 旦 将 用 户 自 定义 函 
数 加 入 到 用 户 会 话 中 交互 式 的 或 者 通过 脚本 执行 的 ) ， 它 们 就 将 和 内 
置 的 函数 一 样 使 用 ， 甚 至 可 以 提供 联机 帮助 。Hive 具 有 多 种 类 型 的 用 户 
目 定 义 函 数 ， 每 一 种 都 会 针对 输入 数据 执行 特定 “一 类 ”的 转换 过 程 。 


在 ETL 人 处 理 中 ， 一 个 处 理 过 程 可 能 包含 多 个 处 理 步 又 。Hive 语 言 共 
有 多 种 方式 来 将 上 一 步骤 的 输入 通过 管道 传递 给 下 一 个 步骤 ， 然 后 在 一 
个 查询 中 产生 众多 输出 。 用 户 同样 可 以 针对 一 些 特定 的 处 理 过 程 编写 自 
定义 函数 。 如 果 没 有 这 个 功能 ， 那 么 一 个 处 理 过 程 可 能 就 需要 包含 一 个 
MapReduce 步 骤 或 者 需要 将 数据 转移 到 另 一 个 系统 中 来 实现 这 些 改变 。 
互联 系统 增加 了 复杂 性 ， 并 且 增 加 了 配置 错误 或 其 他 错误 的 发 生 几 率 。 
当 数 据 量 是 GB 甚至 TB 级 别 时 ， 在 不 同系 统 中 转移 数据 ， 需 要 消耗 大 量 
的 时 间 。 与 此 相反 ，UDF 是 在 Hive 查 询 产 生 的 相同 的 task 进 程 中 执行 
的 ， 因 此 它们 可 以 高 效 地 执行 ， 而 且 其 消除 了 和 其 他 系统 集成 时 所 产生 
的 复杂 度 。 本 章 涵 括 创建 和 使 用 UDF 的 最 佳 实践 。 








13.1 发现 和 描述 函数 


在 编写 目 定 义 UDF 之 前 ， 我 们 先 来 熟悉 下 Hive 中 目 带 的 那些 UDF。 
需要 注意 的 是 在 Hive 中 通常 使 用 “UDF” 来 表示 任意 的 函数 ， 包 括 用 户 自 
定义 的 或 者 内 置 的 。 


SHOW FUNCTIONS 命令 可 以 列举 出 当前 Hive 会 话 中 所 加 载 的 所 有 
函数 名 称 ， 其 中 包括 内 置 的 和 用 户 加 载 进来 的 函数 ， 加 载 方式 稍 后 会 进 


行 介绍 : 








hive> SHOW FUNCTIONS; 
abs 
acos 
and 


array 
array_contains 








函数 通常 都 有 其 自身 的 使 用 文档 。 使 用 DESCRIBE FUNCTION {is & 
可 以 展示 对 应 函数 简短 的 介绍 : 


hive> DESCRIBE FUNCTION concat; 
concat(stri, str2, ... strN) - returns the concatenation of stri, str2, ... strN 


RU AY EL a EE ACS, Ay DA EXTENDED X HË 
字 进 行 查看 : 


hive> DESCRIBE FUNCTION EXTENDED concat; 
concat(stri, str2, ... strN) - returns the concatenation of stri, str2, ... 
Returns NULL if any argument is NULL. 


Example: 
> SELECT concat('abc', 'def') FROM src LIMIT 1; 
"abcdef ' 





13.2 ”调用 函数 


如 来 想 使 用 前 数 ， 只 需要 在 查询 中 通过 调用 函数 名 ， 并 传 入 需要 的 
参数 即 可 。 茶 些 函 数 需要 指定 特定 的 参数 个 数 和 参数 类 型 ， 而 其 他 函数 
可 以 传 入 一 组 参数 ， 参 数 类 型 可 以 是 多 样 的 。 和 关键 字 一 样 ， 函 数 名 也 
是 保留 的 字符 串 : 


SELECT concat(columni,column2) AS x FROM table; 





13.3 标准 函数 


用 户 自 定义 函数 (英文 缩写 为 UDF〉 这 个 术语 在 狭义 的 概念 上 还 表 
示 以 一 行 数据 中 的 一 列 或 多 列 数据 作为 参数 然后 返回 结果 是 一 个 值 的 函 
数 。 大 多 数 函 数 部 是 属于 这 类 的 。 


我 们 使 用 的 例子 中 包含 了 很 多 的 数学 函数 。 例 如 round0 和 floor0)， 
其 可 以 将 DOUBLE 类 型 转换 为 BIGINT 类 型 ， 还 有 abs0， 这 个 函数 可 以 
返回 数值 的 绝对 值 。 


其 他 一 些 例子 中 还 包含 有 字符 串 操 作 冰 数 。 例 如 ucase()， 这 个 函数 
可 以 将 字符 串 转 换 成 全 是 大 写字 母 的 ; reverse0 图 数 ， 可 以 将 字符 串 进 
而 concat0 阔 数 可 以 将 输入 的 多 个 字符 串 拼 接 成 一 个 字符 串 输 


需要 注意 的 是 ， 这 些 UDF 同 样 可 以 返回 一 个 复杂 的 对 象 ， 例 如 
array、map 或 者 struct。 








13.4 ”聚合 函数 


另 一 种 函数 是 聚合 函数 。 所 有 的 聚合 函数 、 用 户 自 定 义 函 数 和 内 置 
函数 ， 都 统称 为 用 户 上 自 定 义 聚 合 函 数 CUDAF) 。 


聚合 函数 接受 从 零 行 到 多 行 的 零 个 到 多 个 列 ， 然 后 返回 单一 值 。 这 
样 的 例子 包括 数学 函数 sum()， 其 返回 所 有 输入 求 和 后 的 值 ，avg0) 函 数 
会 计算 所 有 输入 的 值 的 平均 值 ，min0 和 max0) 函 数 ， 可 以 分 别 返 回 输入 
值 中 的 最 小 值 和 最 大 值 : 











hive> SELECT avg(price_close) 


> FROM stocks 
> WHERE exchange = 'NASDAQ' AND symbol = 'AAPL'; 





聚合 方法 通常 和 GROUP BY 语句 组 合 使 用 。 下 面 这 个 例子 我 们 在 第 
6.3 节 “GROUP BY 语句 ”中 使 用 过 : 


hive> SELECT year(ymd), avg(price_close) FROM stocks 
> WHERE exchange = 'NASDAQ' AND symbol = 'AAPL' 
> GROUP BY year(ymd); 

1984 25.578625440597534 


1985 20 .193676221040867 
1986 32 .46102808021274 








y, 第 6 章 中 的 表 6.3 中 列举 了 可 以 在 HiveQL 中 使 用 的 所 有 内 四 说 


13.5 ” 表 生 成 函数 


Hive 所 支持 的 第 3 类 函数 就 是 表 生 成 函数 。 和 其 他 函数 类 别 一 样 ， 
所 有 的 表 生 成 函数 ， 包 括 用 户 自 定义 的 和 内 置 的 ， 都 统称 为 用 户 自 定义 
表 生 成 函数 (UDTF) 。 


表 生 成 函数 接受 零 个 或 多 个 输入 ， 然 后 产生 多 列 或 多 行 输出 。 例 


如 ，array 函 数 就 是 将 一 列 输入 转换 成 一 个 数组 输出 的 。 下 面 的 查询 语句 
中 使 用 了 array 函 数 : 


hive> SELECT array(1,2,3) FROM dual; 
[1,2,3] 


explode() PK 2 array KE Ba TE ALA, PR Jat PE) ade 4 
ER, IRIS TAR, t-PA ce» 











hive> SELECT explode(array(1,2,3)) AS element FROM src; 
1 


2 
3 


不 过 ，Hive 只 人 允许 表 生 成 函数 以 特定 的 方式 使 用 。 例 如 ， 一 个 显著 
的 限制 就 是 ， 我 们 无 法 从 表 中 产生 其 他 的 列 。 例 13-1 所 示 的 这 个 碍 询 可 
能 是 前 面 我 们 对 于 employees 表 进行 的 操作 。 我 们 可 能 需要 列举 出 每 名 
雇员 的 下 属 员工 : 





























例 13-1 explode 函 数 的 错误 使 用 方式 : 





hive> SELECT name, explode(subordinates) FROM employees; 


FAILED: Error in semantic analysis: UDTF's are not supported outside 
the SELECT clause, nor nested in expressions 





不 过 ，Hive 提 供 了 一 个 LATERAL VIEW 功能 来 实现 这 种 查询 


hive> SELECT name, sub 
> FROM employees 
> LATERAL VIEW explode(subordinates) subView AS sub; 


John Doe Mary Smith 
John Doe Todd Jones 
Mary Smith Bill King 





需要 注意 的 是 ， 对 于 职位 不 是 经 理 的 雇员 《 即 没 有 下 属 员工 的 人 ) 


来 说 是 没有 输出 行 的 ， 例 如 Bill King 和 Todd Jones 就 不 会 有 对 应 的 输出 
行 。 因此， 输出 中 将 会 产生 零 到 多 行 新 纪录 。 





通过 LATERAL VIEW 可 以 方便 地 将 explode 这 个 UDTF 得 到 的 行 转 列 
的 结果 集合 在 一 起 提供 服务 。 使 用 LATERAL VIEW 需要 指定 视图 别名 
和 生成 的 新 列 的 别名 ， 对 于 本 例 ， 其 分 别 是 subView 和 sub。 


第 6 章 中 的 表 6-4 中 列举 了 所 有 的 内 置 的 表 生 成 行 数 。 





13.6 一 个 通 期 计算 其 星座 的 UDF 


下 面 我 们 开始 编写 自己 的 UDF。 假 设 我 们 有 一 张 表 ， 表 中 的 一 个 字 
段 存储 的 是 每 个 用 户 的 生日 。 通 过 这 个 信息 ， 我 们 期 望 能 够 计算 出 每 个 
人 所 属 的 星座 。 


下 面 是 一 个 样本 数据 集 ， 我 们 将 其 放 到 用 户 根 目录 下 一 个 名 为 
littlebigdata.txt 的 文件 中 : 





edward capriolo, edward@media6degrees.com, 2-12-1981, 209.191.139.200,M,10 
bob, bob@test.net, 10-10-2004, 10.10.10.1,M,50 


sara connor, sara@sky.net,4-5-1974,64.64.5.1,F,2 





将 样本 数据 载 入 到 名 为 littlebigdata 的 表 中 : 


> CREATE TABLE IF NOT EXISTS littlebigdata( 
name STRING, 
j STRING, 
STRING, 
STRING, 
gender STRING, 
anum INT) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 


hive> LOAD DATA LOCAL INPATH '${env:HOME}/littlebigdata.txt' 
> INTO TABLE littlebigdata; 


函数 的 输入 将 是 一 个 日 期 ， 而 函数 输出 将 是 表示 该 用 户 星座 的 字符 








下 面 是 我 们 期 望 的 这 个 UDF 的 Java 实 现 : 





package org.apache.hadoop.hive.contrib.udf.example; 


import java.util.Date; 
import java.text.SimpleDateFormat; 
import org.apache.hadoop.hive.ql.exec.UDF; 


@Description(name = "zodiac", 
value = "_FUNC_(date) - from the input date string "+ 
"or separate month and day arguments, returns the sign of the Zodiac.", 
extended = "Example: \n" 


+ " > SELECT _FUNC_(date_string) FROM src;\n" 
+ " > SELECT _FUNC_(month, day) FROM src;") 


public class UDFZodiacSign extends UDF{ 


private SimpleDateFormat df; 


public UDFZodiacSign(){ 
df = new SimpleDateFormat("MM-dd-yyyy"); 
} 


public String evaluate( Date bday ){ 
return this.evaluate( bday.getMonth(), bday.getDay() ); 
} 


public String evaluate(String bday) { 
Date date = null; 
try { 
date = df.parse(bday); 
} catch (Exception ex) { 
return null; 


return this.evaluate( date.getMonth()+1, date.getDay() ); 


public String evaluate( Integer month, Integer day ){ 
if (month==1) { 
if (day < 20 ){ 
return "Capricorn"; 
} else { 
return "Aquarius"; 


} 
if (month==2) { 
if (day < 19 ){ 
return "Aquarius"; 
} else { 
return "Pisces"; 


/* ...0other months here */ 
return null; 





〈 译 者 注 : 这 段 代 码 有 2 个 很 明显 的 错误 ， 其 一 ，bday.getMonth 的 
返回 值 范 围 是 0 一 11， 其 中 值 0 表 示 一 月 份 ， 因 此 这 里 面 正 确 的 写法 应 该 
是 bday.getMonth+1， 其 二 bday.getDay0 返 回 的 是 一 周 中 的 第 几 天 ， 显 然 
不 对 ， 这 里 应 该 使 用 bday.getDate() 返 回 月 中 的 天 数 。) 


编写 一 个 UDF， 需 要 继承 UDF 类 并 实现 evaluate(0) 函 数 。 在 查询 执行 
过 程 中 ， 查 询 中 对 应 的 每 个 应 用 到 这 个 函数 的 地 方 都 会 对 这 个 类 进行 实 
例 化 。 对 于 每 行 输入 都 会 调用 到 evaluate0 函 数 。 而 evaluate(O) 处 理 后 的 值 
会 返回 给 Hive。 同 时 用 户 是 可 以 重 载 evaluate 方 法 的 。Hive 会 像 Java 的 方 
法 重 载 一样 ， 目 动 选择 匹配 的 方法 。 


代码 中 的 @Description(...) 表 示 的 是 Java 总 的 注解 ， 是 可 选 的 。 注 解 
中 注 明 了 关于 这 个 函数 的 文档 说 明 ， 用 户 需要 通过 这 个 注解 来 曾 明 自 定 





义 的 UDF 的 使 用 方法 和 例子 。 这 样 当 用 户 通 过 DESCRIBE FUNCTION .… 
命令 查看 该 函数 时 ， 注 解 中 的 FUNC 字 符 串 将 会 被 蔡 换 为 用 户 为 这 个 函 
数 定义 的 临时 ”函数 名 称 ， 定 义 方式 下 面 会 进行 介绍 。 


` 
t 
ba 


Ra 
“i tea 


UDF 中 evaluate() 函 数 的 参数 和 返回 值 类 型 只 能 是 Hive 可 以 序列 
化 的 数据 类 型 。 例 如 ， 如 果 用 户 处 理 的 全 是 数值 ， 那 么 UDF 的 输出 
参数 类 型 可 以 是 基本 数据 类 型 int、Integer 封 装 的 对 象 或 者 是 一 个 
IntWritable 对 象 ， 也 就 是 Hadoop 对 整 型 封装 后 的 对 象 。 用 户 不 需要 
特别 地 关心 将 调用 到 哪个 类 型 ， 因 为 当 类 型 不 一 致 的 时 候 ，Hive 会 
目 动 将 类 型 转换 成 匹配 的 类 型 。 需 要 记 住 的 是 ，null 在 Hive 中 对 于 
任何 数据 类 型 都 是 合法 的 ， 但 是 对 于 Java 基 本 数据 类 型 ， 不 能 是 对 
象 ， 也 不 能 是 null。 


如 果 想 在 Hive 中 使 用 UDF， 那 么 需要 将 Java 代 码 进行 编译 ， 然 后 将 
编译 后 的 UDF 二 进 制 类 文件 打包 成 一 个 JAR 文 件 。 然 后 ， 在 Hive 会 话 
中 ， 将 这 个 JAR 文 件 加 入 到 类 路 径 下 ， 再 通过 CREATE FUNCTION 语 句 
定义 好 使 用 这 个 Java 类 的 函数 : 








hive> ADD JAR /full/path/to/zodiac. jar; 
hive> CREATE TEMPORARY FUNCTION zodiac 





> AS 'org.apache.hadoop.hive.contrib.udf.example.UDFZodiacSign'; 


再 要 注意 的 是 ，JAR 文 件 路 径 是 不 需要 用 引号 括 起 来 的 ， 同 时 ， 到 








目前 为 止 这 个 路 径 需 要 是 当前 文件 系统 的 全 路 径 。Hive 不 仅仅 将 这 个 
JAR 文 件 加 入 到 classpath 下 ， 同 时 还 将 其 加 入 到 了 分 布 式 缓存 中 ， 这 样 
整个 集群 的 机 器 都 是 可 以 获得 该 JAR 文 件 的 。 


现在 这 个 判断 星座 的 UDF 可 以 像 其 他 的 函数 一 样 使 用 了 。 需 要 注意 
下 CREATE FUNCTION 语 句 中 的 TEMPORARY 这 个 关键 字 。 当 前 会 话 
中 声明 的 函数 只 会 在 当前 会 话 中 有 效 。 因 此 用 户 需 要 在 每 个 会 话 中 都 增 
加 JAR 然 后 创建 函数 。 不 过 ， 如 果 用 户 需要 频繁 地 使 用 同一 个 JAR 文 件 
和 函数 的 话 ， 那 么 可 以 将 相关 语句 增加 到 $HOME/.hiverc 文 件 中 去 : 




















hive> DESCRIBE FUNCTION zodiac; 
zodiac(date) - from the input date string or separate month and day 
arguments, returns the sign of the Zodiac. 


hive> DESCRIBE FUNCTION EXTENDED zodiac; 
zodiac(date) - from the input date string or separate month and day 
arguments, returns the sign of the Zodiac. 
Example: 
> SELECT zodiac(date_string) FROM src; 
> SELECT zodiac(month, day) FROM src; 


hive> SELECT name, bday, zodiac(bday) FROM littlebigdata; 


edward capriolo 2-12-1981 Aquarius 
bob 10-10-2004 Libra 
sara connor 4-5-1974 Aries 





再 次 说 明 下 ，UDF 人 允许 用 户 在 Hive 语 言 中 执行 自 定 义 的 转换 过 程 。 





通过 上 面 那 个 UDF，Hive 现 在 可 以 通过 用 户 生 日 计算 得 到 相应 的 星座 名 
称 了 ， 当 然 也 可 以 做 其 他 的 聚合 和 转换 过 程 。 


当 我 们 使 用 完 自 定 义 UDF 后 ， 我 们 可 以 通过 如 下 命令 删除 此 函数 : 


像 通常 一 样 ，IF EXISTS 是 可 选 的 。 如 果 增 加 此 关键 字 ， 则 即使 函 
数 不 存 在 也 不 会 报错 。 


13.7 UDF-5 GenericUDF 


前 面 介绍 的 那个 计算 星座 的 UDF 例 子 中 ， 我 们 继承 的 是 UDF 类 。 
Hive 还 提供 了 一 个 对 应 的 称 为 GenericUDF 的 类 。GenericUDF 是 更 为 复 
杂 的 抽象 概念 ， 但 是 其 支持 更 好 的 null 值 处 理 同 时 可 以 处 理 一 些 标 准 的 
UDF 无 法 支持 的 编程 操作 。GenericUDF 的 一 个 例子 就 是 Hive 中 的 CASE 

.WHEN 语句 ， 其 会 根据 语句 中 输入 的 参数 而 产生 复杂 的 处 理 逻 辑 。 下 
面 我 们 将 展示 如 何 通过 继承 GenericUDF 类 来 纺 写 一 个 用 户 自 定义 函数 ， 
ne KZ 为 nv10， 这 个 函数 传 入 的 值 如 果 是 null， 那 么 就 会 返回 一 个 默 
; 


疯 数 nvl() 要 求 有 2 个 参数 。 如 果 第 1 个 参数 是 非 null 值 ， 那 么 就 会 返 
回 这 个 值 ， 如 果 第 1 个 参数 是 null， 那 么 将 返回 第 2 参数 的 值 。 
GenericUDE 框 架 正 适合 处 理 这 类 问题 。 通 过 继承 标准 的 UDF 确 实 是 一 个 
解决 方案 ， 不 过 那样 就 需要 针对 如 此 多 的 输入 类 型 重 载 众多 的 evaluate 
方法 ， 这 样 显得 非常 麻烦 。 而 GenericUDE 将 会 以 编程 的 方式 检查 输入 的 
数据 类 型 ， 然 后 做 出 合适 的 反馈 。 


我 们 以 普通 import 语 句 的 细 目 列表 开始 这 个 代码 : 














package org.apache.hadoop.hive.ql.udf.generic; 


import org.apache.hadoop.hive.ql.exec.Description; 
import org.apache.hadoop.hive.gql.exec.UDFArgumentException; 


import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException; 
import org.apache.hadoop.hive.gl.exec.UDFArgumentTypeException; 
import org.apache.hadoop.hive.ql.metadata.HiveException; 

import org.apache.hadoop.hive.ql.udf.generic.GenericuUDF; 

import org.apache.hadoop.hive.ql.udf.generic.GenericUDFUtils; 

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector; 





之 后 ， 我 们 使 用 @Description 注 解 来 为 这 个 UDF 写 明 使 用 文档 : 


@Description(name = "nvl", 
value = "_FUNC_(value,default_value) - Returns default value if value" 
+" is null else returns value", 


extended = "Example: \n" 
+ " > SELECT _FUNC_(null,'bla') FROM src LIMIT 1;\n") 











现在 需要 这 个 类 继承 GenericUDF， 然 后 开发 这 个 类 通常 需要 实现 的 
方法 。 


其 中 initialize(0) 方 法 会 被 输入 的 每 个 参数 调用 ， 并 最 终 传 入 到 一 个 
ObjectInspector 对 象 中 。 这 个 方法 的 目标 是 确定 参数 的 返回 类 型 。 如 果 
传 入 方法 的 类 型 是 不 合法 的 ， 这 时 用 户 同样 可 以 同 控 制 人 台 抛 出 一 个 
Exception 异 常 信息 。returnOIResolver 是 一 个 内 置 的 类 ， 其 通过 获取 非 
null 值 的 变量 的 类 型 并 使 用 这 个 数据 类 型 来 确定 返回 值 类 型 : 








public class GenericUDFNvl extends GenericUDF { 
private GenericUDFUtils.ReturnObjectInspectorResolver returnOIResolver; 
private ObjectInspector[] argumentOIs; 


@Override 
public ObjectInspector initialize(ObjectInspector[] arguments) 
throws UDFArgumentException { 
argumentOIs = arguments; 
if (arguments.length != 2) { 
throw new UDFArgumentLengthException( 
"The operator 'NVL' accepts 2 arguments."); 


returnOIResolver = new GenericUDFUtils.ReturnObjectInspector Resolver(true); 
if (!(returnOIResolver.update(arguments[0]) && returnOIResolver 
.update(arguments[1]))) { 
throw new UDFArgumentTypeException(2, 
"The ist and 2nd args of function NLV should have the same type, " 
+ "but they are different: \"" + arguments[0].getTypeName() 
+ "\" and \"" + arguments[1].getTypeName() + "\""); 


return returnOIResolver.get(); 





方法 evaluate 的 输入 是 一 个 DeferredObject 对 象 数 组 ， 而 initialize 方 法 
中 创建 的 returnOIResolver 对 象 就 用 于 从 DeferredObjects 对 象 中 获取 到 
值 。 在 这 种 情况 下 ， 这 个 函数 将 会 返回 第 1 个 非 null 值 : 


@Override 
public Object evaluate(DeferredObject[] arguments) throws HiveException { 
Object retVal = returnOIResolver.convertIfNecessary(arguments[0].get(), 
argumentOIs[0]); 
if (retVal == null ){ 


retVal = returnOIResolver.convertIfNecessary(arguments[1].get(), 


argumentOIs[1]); 
} 


return retVal; 


} 








最 后 一 个 要 实现 的 方法 就 是 getDisplayString () ， 其 用 于 Hadoop 
task 内 部 ， 在 使 用 到 这 个 函数 时 来 展示 调试 信息 : 


@Override 
public String getDisplayString(String[] children) { 
StringBuilder sb = new StringBuilder(); 
sb.append("if "); 
sb.append(children[0]); 
sb.append(" is null "); 
sb.append("returns"); 
sb.append(children[1]); 
return sb.toString() ; 








为 了 展示 这 个 UDF 的 通用 处 理 特性 ， 下 和 面 的 查询 中 对 其 调用 了 多 
次 ， 每 次 都 传 入 不 同类 型 的 参数 ， 正 如 下 面 例子 所 展示 的 : 





hive> ADD JAR /path/to/jar.jar; 


hive> CREATE TEMPORARY FUNCTION nvl 
> AS 'org.apache.hadoop.hive.ql.udf.generic.GenericUDFNvl1'; 


hive> SELECT nvl( 1, 2 ) AS COL1, 
> nvl( NULL, 5 ) AS COL2, 
> nvl( NULL, "STUFF" ) AS COL3 
> FROM src LIMIT 1; 

al 5 STUFF 





13.8 不 变 函 数 


到 目前 为 止 我 们 都 是 将 代码 打包 成 JAR 文 件 ， 然 后 再 使 用 ADD JAR 
和 CREATE TEMPORARY FUNCTION 命 令 来 使 用 这 些 函 数 的 。 


用 户 同 样 可 以 将 自己 的 函数 永久 地 加 入 到 Hive 中 ， 不 过 这 就 需要 对 
Hive 的 Java 文 件 进 行 简单 的 修改 ， 然 后 重新 编译 Hive。 


对 于 Hive 源 代码 ， 需 要 对 
ql/src/java/org/apache/hadoop/hive/ql/exec/FunctionRegistry.javalX“* 
FunctionRegistry 类 进行 一 行 的 代码 修改 。 然 后 按照 Hive 源 码 分 文 的 编译 
方式 ， 对 Hive 源 人 码 重 新 编译 即 可 。 


尽管 建议 是 重新 部 辕 整 个 新 的 编译 后 的 版 本 ， 不 过 实际 上 只 需要 莹 
换 hive-exec-*.jar 这 个 JAR 文 件 即 可 ， 其 中 必 表 示 的 是 版 本 号 ， 需 要 符 换 
成 具体 的 值 。 


下 面 就 是 一 个 将 nv10 函 数 增加 到 Hive 内 置 函数 列表 中 时 对 于 
FunctionRegistry 类 的 修改 方式 : 








registerUDF("parse_url", UDFParseUrl.class, false); 


registerGenericUDF("nvl", GenericUDFNvl.class); 
registerGenericUDF("split", GenericUDFSplit.class); 





13.9 用 户 目 定义 聚合 函数 


用 户 同 样 可 以 定义 聚合 函数 ， 不 过 ， 接 口 实现 起 来 比较 复杂 。 聚 合 
函数 会 分 多 个 阶段 进行 处 理 。 基 于 UDAF 执 行 的 转换 的 不 同 ， 在 不 同 阶 
段 的 返回 值 类 型 也 可 能 是 不 同 的 。 例 如 ，sum0 这 个 UDAF 可 以 接受 基本 
数据 类 型 中 的 整 型 输入 ， 然 后 创建 整 型 部 分 数据 ， 最 终 产 生 一 个 整 型 结 
AR; 而 median0 这 个 聚合 函数 会 接受 整 型 输入 ， 然 后 中 间 会 产生 一 组 整 
型 部 分 数据 ， 最 后 产生 一 个 整 型 结果 。 


作为 通用 的 用 户 自 定义 聚合 函数 的 例子 ， 可 以 但 
看 http://svn.apache.org/repos/asf/hive/ branches/branch- 
0.8/ql/src/java/org/apache/hadoop/hive/ql/udf/generic/Generic 
UDAFAverage.java 这 个 GenericUDAFAverage 类 的 源 代码 。 


ae | 
we a 日 一 
| gs 提示 


聚合 过 程 是 在 map 或 者 reduce 任 务 (task) 中 执行 的 ， 其 是 一 个 
有 内 存 限制 的 Java 进 程 。 因 此 ， 在 聚合 过 程 中 存储 大 的 结构 化 数据 
可 能 会 产生 内 存 溢出 错误 。 对 于 min(0 这 个 UDAF 而 言 ， 只 需要 在 内 
存 中 保存 单个 元 素来 进行 比较 即 可 。 而 collectset(O 这 个 UDAF 内 部 是 
使 用 set 来 排 重 存储 数据 ， 以 减少 内 存 使 用 量 的 。percentile_approx() 
使 用 近似 算法 来 获取 近似 结果 以 限制 内 存 使 用 。 在 写 UDAF 的 时 候 
一 定 要 注意 内 存 使 用 的 问题 。 通 过 配置 参数 mapred.child.java.opts 可 
以 调整 执行 过 程 的 内 存 需 求 量 ， 但 是 这 种 方式 并 非 总 是 奏效 。 














<property> 
<name>mapred.child.java.opts</name> 
<value>-Xmx200m</value> 

</property> 


创建 一 个 COLLECT UDAF 来 模拟 GROUP _ CONCAT 


MySQL 中 有 一 个 非常 有 用 的 函数 名 为 GROUP_CONCAT， 其 可 以 
将 一 组 中 的 所 有 元 素 按照 用 户 指 定 的 分 隔 符 组 装 成 一 个 字符 串 。 下 面 这 
个 例子 展示 了 MySQL 中 是 如 何 使 用 这 个 函数 的 : 


mysql > CREATE TABLE people ( 
name STRING, 
friendname STRING ); 


mysql > SELECT * FROM people; 
bob sara 

bob john 

bob ted 

john sara 

ted bob 

ted sara 


mysql > SELECT name, GROUP_CONCAT(friendname SEPARATOR ',') 
FROM people 
GROUP BY name; 
sara, john, ted 
sara 
bob, sara 





我 们 无 需 增加 新 的 语法 就 可 以 在 Hive 中 实现 同样 的 转换 。 首 先 ， 我 
们 需要 一 个 聚合 函数 将 所 有 的 输入 作为 一 个 列表 加 入 到 集合 中 。Hive 中 
己 经 有 了 一 个 叫做 collect_set 的 UDAF 来 将 所 有 的 输入 加 入 到 一 个 
java.util.Set 集 合 中 。Set 类 型 的 集合 会 在 插入 输入 的 时 候 上 自动 进行 排 重 ， 
这 对 于 GROUP CONCAT 来 说 是 不 合适 的 。 为 了 组 闭合 适 的 集合 ， 我 们 
使 用 collect_set 中 的 代码 来 将 Set 的 实例 蔡 换 成 ArrayList 实 例 。 这 样 束 不 
~ 这 个 聚合 过 程 的 结果 就 是 产生 一 个 包含 有 所 有 值 的 
数组 


我 们 需要 记 住 的 很 重要 的 一 点 吏 是 ， 用 户 的 聚合 计算 应 该 是 允许 数 
据 任 意 划 分 为 多 个 部 分 进行 计算 而 不 会 影 啊 结 果 的 。 可 以 想象 下 写 一 个 
分 而 治之 的 算法 ， 其 中 划分 的 数据 完全 不 由 用 户 控制 而 是 由 Hive 进 行 控 
制 的 。 比 较 正 式 的 说 明 是 ， 输 入 的 行 应 该 可 以 分 成 2 个 或 多 个 子 集 ， 并 
可 以 分 别 对 每 个 子 集 进行 计算 ， 同 时 允许 将 并 行 执行 的 各 个 子 集 的 结 
合并 到 其 他 并 行 执行 的 结果 中 ， 最 终 得 到 整个 集合 的 结果 。 


下 面 的 代码 在 Github 中 是 可 以 查看 到 的 。 聚 合 过 程 的 所 有 输入 必须 
是 基本 数据 类 型 。 不 像 GenericUDF 返 回 的 是 ObjectInspector 对 象 ， 聚 合 
过 程 返回 的 是 GenericUDAFEvaluator 的 子 类 对 象 : 

















@Description(name = "collect", value = "_FUNC_(x) - Returns a list of objects. "+ 
"CAUTION will easily OOM on large data sets" ) 
public class GenericUDAFCollect extends AbstractGenericUDAFResolver { 

static final Log LOG = LogFactory.getLog(GenericUDAFCollect.class. getName()); 


public GenericUDAFCollect() { 


@Override 


public GenericUDAFEvaluator getEvaluator(TypeInfo[] parameters) 
throws SemanticException { 
if (parameters.length != 1) { 
throw new UDFArgumentTypeException(parameters.length - 1, 
"Exactly one argument is expected."); 
} 
if (parameters[0].getCategory() != ObjectInspector.Category. PRIMITIVE) { 
throw new UDFArgumentTypeException(0, 
"Only primitive type arguments are accepted but " 
+ parameters[0].getTypeName() + " was passed as parameter 1."); 


} 


return new GenericUDAFMkListEvaluator(); 


} 
} 





表 13-1 对 基 类 中 提供 的 部 分 方法 进行 了 描述 。 
2213-1 基 类 中 提供 的 方法 描述 





Hive 会 调用 此 方法 来 初始 实例 化 一 个 UDAF evaluator 类 


getNewAggregationBuffer | 返回 一 个 用 于 存储 中 间 聚 合 结果 的 对 象 


toe fastens tn 








以 一 种 可 持久 化 的 方法 返回 当前 聚合 的 内 容 。 这 里 所 说 的 
可 持久 化 是 指 返 回 值 只 可 以 使 用 Java 基 本 数据 类 型 和 
terminatePartial array， 以 及 基本 封装 类 型 〈 例 如 Double) ，Hadoop 中 
Writable 类 、list 和 map 类 型 。 不 能 使 用 用 户 自 定义 的 类 
(即使 实现 java.io.Serializable ) 
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在 init 方 法 中 ， 在 判断 评估 器 所 处 的 模式 之 后 ， 可 以 设置 返回 结果 
类 型 的 对 象 检查 器 。 














iterate() 方 法 和 terminatePartial() 方 法 会 Emap win í H ŽI); 
terminate() 方 法 和 merge(0) 方 法 会 在 reduce 端 使 用 到 ， 用 于 生 
果 。 在 所 有 情况 下 ， 合 并 过 程 都 会 产生 大 的 列表 : 


public static class GenericUDAFMkListEvaluator extends GenericUDAFEvaluator { 
private PrimitiveObjectInspector inputOI; 
private StandardListObjectInspector loi; 
private StandardListObjectInspector internalMergeOI; 


@Override 
public ObjectInspector init(Mode m, ObjectInspector[] parameters) 
throws HiveException { 
super.init(m, parameters); 
if (m == Mode.PARTIAL1) { 
inputOI = (PrimitiveObjectInspector) parameters[0]; 
return ObjectInspectorFactory 
.getStandardListObjectInspector ( 
(PrimitiveObjectInspector) ObjectInspectorUtils 
.getStandardObjectInspector(inputOI)); 
} else { 
if (!(parameters[0] instanceof StandardListObjectInspector)) { 
inputOI = (PrimitiveObjectInspector) ObjectInspectorUtils 
.getStandardObjectInspector(parameters[0]); 
return (StandardListObjectInspector) ObjectInspectorFactory 
.getStandardListObjectInspector(inputOL); 
} else { 
internalMergeOI = (StandardListObjectInspector) parameters[0]; 
inputOI = (PrimitiveObjectInspector) 
internalMergeOI.getListElementObjectInspector(); 
loi = (StandardListObjectInspector) ObjectInspectorUtils 
.getStandardObjectInspector(internalMergeOI); 
return loi; 





余下 的 方法 和 类 定义 会 定义 MkArrayAggregationBuffer 以 及 修改 这 
个 buffer 的 顶级 方法 。 
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用 户 可 能 已 经 注 ist Bll Hive 2s 试 尽 可 能 地 避免 通过 new 创 建 对 
象 。Hadoop 和 Hive 依 据 这 个 规则 创建 尽 可 能 少 的 临时 对 象 ， 这 样 可 
以 尽量 减轻 JVM 的 垃圾 回收 过 程 。 在 写 UDF 的 时 候 ， 需 要 牢记 这 个 
原则 ， 因 为 通常 是 可 以 引用 重用 对 象 的 ， Ti EFA EIA wt ST 
会 导致 出 现 bugl 








static class MkArrayAggregationBuffer implements AggregationBuffer { 
List<Object> container; 


} 


@Override 
public void reset(AggregationBuffer agg) throws HiveException { 
((MkArrayAggregationBuffer) agg).container = 
new ArrayList<Object>(); 


} 


@Override 
public AggregationBuffer getNewAggregationBuf fer ( ) 
throws HiveException { 
MkArrayAggregationBuffer ret = new MkArrayAggregationBuffer(); 
reset(ret); 
return ret; 


} 


// Mapside 
@Override 
public void iterate(AggregationBuffer agg, Object[] parameters) 
throws HiveException { 
assert (parameters.length == 1); 
Object p = parameters[0]; 


if (p != null) { 
MkArrayAggregationBuffer myagg = (MkArrayAggregationBuffer) agg; 
putIntoList(p, myagg); 
} 
} 


// Mapside 
@Override 
public Object terminatePartial(AggregationBuffer agg) 
throws HiveException { 
MkArrayAggregationBuffer myagg = (MkArrayAggregationBuffer) agg; 
ArrayList<Object> ret = new ArrayList<Object>(myagg.container.size()); 
ret.addAll(myagg.container); 
return ret; 


} 


@Override 
public void merge(AggregationBuffer agg, Object partial) 
throws HiveException { 
MkArrayAggregationBuffer myagg = (MkArrayAggregationBuffer) agg; 
ArrayList<Object> partialResult = 
(ArrayList<Object>) internalMergeOI.getList(partial); 
for(Object i : partialResult) { 
putIntoList(i, myagg); 
} 
} 


@Override 

public Object terminate(AggregationBuffer agg) throws HiveException { 
MkArrayAggregationBuffer myagg = (MkArrayAggregationBuffer) agg; 
ArrayList<Object> ret = new ArrayList<Object>(myagg.container.size()); 
ret.addAll(myagg.container ); 
return ret; 


} 


private void putIntoList(Object p, MkArrayAggregationBuffer myagg) { 
Object pCopy = 
ObjectInspectorUtils.copyToStandardObject(p, this.inputOT) ; 
myagg.container.add(pCopy) ; 
} 





使 用 collect 孙 数 可 以 返回 所 有 聚合 后 的 值 的 数组 列表 : 


hive> dfs -cat $HOME/afile.txt; 
twelve 12 

twelve 1 

eleven 11 

eleven 10 


hive> CREATE TABLE collecttest (str STRING, countVal INT) 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '09' LINES TERMINATED BY '10'; 


hive> LOAD DATA LOCAL INPATH '${env:HOME}/afile.txt' INTO TABLE collecttest; 


hive> SELECT collect(str) FROM collecttest; 
[ twelve, twelve, eleven, eleven] 








函数 concat_ws0 的 第 1 个 参数 是 个 分 隔 符 ， 其 他 的 参数 可 以 是 字符 
串 或 者 字符 串 数 组 。 返 回 值 是 按照 指定 分 隔 符 将 所 有 字符 串 拼 接 在 一 起 
例如 ， 下 面 这 个 例子 中 我 们 使 用 逗号 将 一 组 字符 串 拼接 成 
一 个 字符 串 : 


hive> SELECT concat_ws( ',' , collect(str)) FROM collecttest; 
twelve, twleve, eleven, eleven 


GROUP_CONCAT 函 数 可 以 按照 如 下 语句 通过 组 合 使 用 GROUP 
BY、COLLECT 和 concat_ws() 达 到 同样 的 效果 : 


hive> SELECT str, concat ws( ',' , collect(cast(countVal AS STRING) ) ) 
> FROM collecttest GROUP BY str; 


eleven 11,10 
twelve 12,1 





13.10 H F H E XKR R K 


管 UDF 可 用 来 返回 array( 数 组 ) 和 structure( 结 构 体 )， 但 ol 门 无 法 
mene 用 户 目 定 义 表 生 成 函数 〈 或 简称 UDTF ) 通过 提供 一 
个 可 以 返回 多 列 甚 至 多 行 的 程序 接口 来 满足 这 个 需求 的 。 


13.10.1 ”可 以 产生 多 行 数 据 的 UDTF 


我 们 已 经 在 好 几 个 例子 中 使 用 了 explode 方 法 。explode 方 法 的 输入 
是 一 个 数组 ， 而 将 数组 中 每 个 元 素 都 作为 一 行进 行 输出 。 达 到 相同 效果 
的 另 一 种 可 选 方式 就 是 使 用 UDTF， 基 于 某 个 输入 产生 多 行 输出 。 这 里 
我 们 将 展示 一 个 UDTF， 其 效果 类 似 于 for 循 环 。 这 个 函数 接受 的 是 用 户 
输入 的 起 始 数 值 和 终止 数值 ， 然 后 输出 N 行 数据 : 








hive> SELECT forx(1,5) AS i FROM collecttest; 
1 





这 个 类 继承 的 是 GenericUDTF 接 口 。 开 始 我 们 就 声明 了 3 个 整 型 变 
量 ， 也 就 是 变量 start、 sae a 数组 对 象 
forwardObj 用 于 存放 要 返回 的 结果 行 





package com. jointhegrid.udf.collect; 


import java.util.ArrayList; 

import org.apache.hadoop.hive.gql.exec.UDFArgumentException; 
import org.apache.hadoop.hive.ql.metadata.HiveException; 

import org.apache.hadoop.hive.gl.udf.generic.GenericUDFUtils.*; 
import org.apache.hadoop.hive.gql.udf.generic.GenericUDTF; 

import org.apache.hadoop.hive.serde2.objectinspector.*; 

import org.apache.hadoop.hive.serde2.objectinspector.primitive.*; 
import org.apache.hadoop.io.Intwritable; 


public class GenericUDTFFor extends GenericUDTF { 
Intwritable start; 


Intwritable end; 
Intwritable inc; 


Object[] forwardObj = null; 





因为 本 函数 的 输入 参数 都 是 常数 ， 所 以 在 初始 化 的 initialize 方 法 中 
就 可 以 确定 各 个 变量 的 值 了 。 对 于 本 函数 ， 非 常量 数据 是 无 法 到 达 
evaluate 方 法 进行 处 理 的 。 第 3 个 参数 ， 也 就 是 递增 量 是 可 选 的 ， 默 认 值 


是 1: 





@Override 
public StructObjectInspector initialize(ObjectInspector[] args) 
throws UDFArgumentException { 
start=((WritableConstantIntObjectInspector) args[0]) 
.getWritableConstantValue(); 
end=((writableConstantIntObjectInspector) args[1]) 


.getWritableConstantValue(); 
if (args.length == 3) { 
inc =((WritableConstantIntObjectInspector) args[2]) 
.getWritableConstantValue(); 
} else { 
inc = new IntWritable(1); 








本 函数 只 会 返回 一 行 数据 ， 而 且 这 行 数据 的 数据 类 型 确定 是 整 型 
的 。 我 们 需要 提供 一 个 列 名 ， 不 过 用 户 通 常 可 以 在 后 面 重新 命名 列 名 : 





this.forwardobj = new Object[1]; 
ArrayList<String> fieldNames = new ArrayList<String>(); 
ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>(); 


fieldNames.add("colo"); 
fieldOIs.add( 
PrimitiveObjectInspectorFactory.getPrimitiveJavaObjectInspector ( 
PrimitiveCategory.INT)); 


return ObjectInspectorFactory.getStandardStructObjectInspector( 
fieldNames, fieldOIs); 
} 








process 方 法 是 实际 进行 处 理 的 过 程 。 需 要 注意 的 是 ， 这 个 方法 的 返 
回 类 型 是 void。 这 是 因为 UDTF 可 以 同 前 获取 零 行 或 多 行 数据 ， 而 不 像 
UDF， 其 只 有 唯一 返回 值 。 这 种 情况 下 会 在 for 循 环 中 对 forward 方 法 进 
行 多 次 调用 ， 这 样 每 迭代 一 次 就 可 以 获取 一 行 数据 ; 











@Override 
public void process(Object[] args) 
throws HiveException, UDFArgumentException { 
for (int i = start.get(); i < end.get(); i = i + inc.get()) { 
this. forwardObj[0] = new Integer(i); 
forward(forwardObj ); 


} 
} 


@Override 
public void close() throws HiveException { 
} 

} 











13.10.2 ”可 以 产生 具有 多 个 字段 的 单行 数据 的 UDTF 


返回 一 行 但 是 包含 多 列 数 据 的 UDTF 的 一 个 例子 就 是 parse_url_tuple 
这 个 函数 。 这 是 个 内 置 Hive 函 数 ， 其 有 一 个 输入 参数 是 一 个 URL 链 接 ， 
它 还 可 以 指定 其 他 多 个 常数 ， 来 获取 用 户 期 望 返 回 的 特定 部 分 : 











hive> SELECT parse_url_tuple(weblogs.url, 'HOST', 'PATH') 


> AS (host, path) FROM weblogs; 
google.com /index. html 
hotmail.com 7a/links. html 





这 种 类 型 的 UDTF 的 好 处 是 URL 只 需要 和 被 解析 一 次 ， 然 后 就 可 以 返 
回 多 个 列 。 这 显然 是 个 性 能 优势 。 而 蔡 代 方式 是 : 如 果 使 用 UDF 的 话 ， 
那么 就 需要 写 多 个 UDF， 分 别 抽取 出 其 URL 的 特定 部 分 。 使 用 UDF 需 要 
写 更 多 的 代码 ， 同 时 因为 URL 需 要 多 次 进行 解析 ， 所 以 需要 消耗 更 长 的 
时 间 。 可 能 需要 类 似 于 如 下 的 使 用 方式 : 


13.10.3 ”可 以 模拟 复杂 数据 类 型 的 UDTF 


UDTF 可 作为 一 种 向 Hive 中 增加 更 多 复杂 数据 类 型 的 技术 。 例 如 ， 
某 个 复 森 数据 类 型 可 以 序列 化 成 一 个 编码 字符 串 ， 而 UDTF 可 以 在 需要 
的 时 候 对 这 个 复杂 数据 类 型 进行 反 序 列 化 。 假 设 我 们 有 一 个 名 为 Book 的 
Java 类 。Hive 无 法 直接 处 理 这 样 的 数据 类 型 ， 不 过 Book 对 象 可 以 编码 成 
字符 串 格 式 ， 并 从 字符 冲 格 式 解 码 出 来 : 











public class Book { 
public Book () { } 
public String isbn; 
public String title; 
public String [] authors; 


/* note: this system will not work if your table is 
using '|' or ',' as the field delimiter! */ 
public void fromString(String parts){ 
String [] part = part.split("\|"); 


isbn = Integer.parseInt( part[0] ); 
title = part[1] ; 
authors = part[2].split(","); 

} 


public String toString(){ 
return isbn+"\t"+title+"\t"+StringUtils.join(authors, ","); 


} 





假设 Book 对 象 的 字符 串 格 式 是 如 下 这 种 形式 的 ， 同 时 假设 目前 为 止 
还 无 法 使 用 SerDe 划 分 来 按照 分 隅 符 “ 和“，? 进 行 分 割 : 


hive> SELECT * FROM books; 
5555555|Programming Hive |Edward, Dean, Jason 


对 于 原始 数据 格式 ， 可 能 是 按照 如 下 方式 进行 分 割 得 到 的 : 


hive> SELECT cast(split(book_info,"\|")[0] AS INTEGER) AS isbn FROM books 
> WHERE split(book_info,"\|")[1] = "Programming Hive"; 





5555555 


这 个 HiveQL 语 句 可 以 正确 地 执行 ， 不 过 对 于 最 终 用 户 来 说 有 更 加 
简单 的 处 理 方 式 。 例 如 ， 写 这 种 类 型 的 查询 可 能 需要 参考 相应 的 文档 来 
确定 使 用 哪个 字段 以 及 使 用 哪 种 数据 类 型 ， 还 要 牢记 类 型 转换 的 规则 ， 
以 及 其 他 一 些 事项 。 相 比 之 下 ， 使 用 UDTF 可 以 使 HiveQL 更 加 简洁 和 方 
便 阅 读 。 下 面 这 个 例子 ， 使 用 到 了 parse_book() 这 个 UDTEF: 





hive> FROM ( 
> parse_book(book_info) AS (isbn, title, authors) FROM Book ) a 
> SELECT a.isbn 
> WHERE a.title="Programming Hive" 
> AND array_contains (authors, 'Edward'); 
5555555 


函数 parse_bookO 多 许 Hive 返 回 不 同 数据 类 型 的 多 个 列 ， 分 别 用 来 
表示 book 的 各 个 字段 : 








package com.jointhegrid.udf.collect; 


import java.util.ArrayList; 

import org.apache.hadoop.hive.ql.exec.UDFArgumentException; 

import org.apache.hadoop.hive.ql.metadata.HiveException; 

import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF; 

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector; 

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory; 

import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector 
.PrimitiveCategory; 

import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector; 


import org.apache.hadoop.hive.serde2.objectinspector.primitive 
.PrimitiveObjectInspectorFactory; 

import org.apache.hadoop.hive.serde2.objectinspector.primitive 
.WritableConstantStringObjectInspector; 

import org.apache.hadoop.hive.serde2.objectinspector.primitive 
-WritableStringObjectInspector; 

import org.apache.hadoop.io.Text; 


public class UDTFBook extends GenericUDTF{ 


private Text sent; 
Object[] forwardObj = null; 








这 个 函数 将 会 返回 包含 有 3 个 属性 信息 的 数组 ， 其 中 ，ISBN 是 个 整 
数 ，title〈 书 名 ) 是 个 字符 串 ，authors〈 作 者 ) 也 是 字符 串 。 需 要 注意 
的 是 ， 所 有 的 UDF 痢 是 可 以 返回 租 套 数据 类 型 的 ， 例 如 ， 我 们 可 以 返回 
包含 字符 串 数 组 的 数组 : 


@Override 
public StructObjectInspector initialize(ObjectInspector[] args) 
throws UDFArgumentException { 


ArrayList<String> fieldNames = new ArrayList<String>(); 
ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>(); 


fieldNames.add("isbn"); 
fieldOIs.add(PrimitiveObjectInspectorFactory.getPrimitiveJava0ObjectInspector ( 
PrimitiveCategory.INT)); 


fieldNames.add("title"); 
fieldOIs.add(PrimitiveObjectInspectorFactory.getPrimitiveJava0ObjectInspector ( 
PrimitiveCategory.STRING) ); 


fieldNames.add("authors"); 
fieldOIs.add( ObjectInspectorFactory.getStandardListObjectInspector ( 
PrimitiveObjectInspectorFactory.getPrimitiveJavaObjectInspector ( 
PrimitiveCategory.STRING) 
) 


); 


forwardObj= new Object[3]; 
return ObjectInspectorFactory.getStandardStructObjectInspector ( 
fieldNames, fieldOIs); 





process 方 法 只 会 返回 一 行 。 不 过 ， 对 象 数 组 中 的 每 个 元 素 都 将 绑 定 
一 个 特定 的 变量 : 


@Override 


public void process(Object[] os) throws HiveException { 

sent = new Text(((StringObjectInspector )args[0] ) 
.getPrimitiveJavaObject(os[0])); 

String parts = new String(this.sent.getBytes()); 
String [] part = parts.split("\\|"); 
forwardObj[0]=Integer.parseInt( part[0] ); 
forwardObj[1]=part[1] ; 
forwardO0bj[2]=part[2].split(","); 
this. forward(forwardObj ); 

} 


@Override 

public void close() throws HiveException { 
} 

J 





我 们 在 Book 这 个 UDTF 后 面 使 用 了 AS， 这 样 可 以 允许 用 户 自 定义 结 
果 字 上 段 的 别名 。 这 些 别 名 可 以 在 查询 的 其 他 部 分 使 用 到 ， 而 无 需 重复 从 
Book 中 解析 出 信息 : 


client.execute( 

"create temporary function book as 'com.jointhegrid.udf.collect.UDTFBook'"); 
client.execute( "create table booktest (str string) "); 
client.execute( 


"load data local inpath '" + p.toString() + "' into table booktest"); 
client.execute("select book(str) AS (book, title, authors) from booktest"); 
[555 Programming Hive "Dean", "Jason", "Edward" ] 





13.11 在 UDF 中 访问 分 布 式 绥 存 


UDF 是 可 以 访问 分 布 式 缓存 、 本 地 文件 系统 、 其 至 分 布 式 文件 系统 
中 的 文件 的 。 不 过 这 笠 的 访问 应 该 小 使用， 因为 这 种 使 用 会 显著 地 降 
区 执行 效率 。 


Hive 的 一 个 常用 的 使 用 场景 就 是 分 析 网 页 日 志 。 比 较 大 众 的 一 个 操 
作 就 是 基于 IP 地 址 进行 地 理 位 置 定位 。Maxmind 提 供 了 一 个 GeoIP 数 据 
库 ， 并 提供 了 Java API 来 访问 这 个 数据 库 。 通 过 将 这 个 API 包 装 成 一 个 
UDF， 就 可 以 在 Hive 查 询 中 通过 IP 地 址 查询 对 应 的 地 理 位 置信 息 。 


GeoIP API 会 使 用 一 个 较 小 的 数据 文件 。 其 对 于 通过 UDF 访 问 一 个 
分 布 式 缓存 文件 来 说 是 非常 理想 的 。 本 例 的 完整 代码 可 以 通过 如 下 链接 
获得 : https://github.com/edwardcapriolo/hive-geoip/. 


ADD FILE 命 令 用 于 通过 Hive 将 数据 文件 加 载 到 分 布 式 缓存 中 。 而 
ADD JAR 命令 可 以 将 指定 的 Java JAR 文 件 加 载 到 分 布 式 缓存 和 类 路 径 
中 。 最 后 ， 在 执行 查询 前 需要 创建 临时 函数 : 


hive> ADD FILE GeoIP.dat; 
hive> ADD JAR geo-ip-java.jar; 
hive> ADD JAR hive-udf-geo-ip-jtg.jar; 
hive> CREATE TEMPORARY FUNCTION geoip 
> AS 'com.jointhegrid.hive.udf.GenericUDFGeoIP' ; 











hive> SELECT ip, geoip(source_ip, 'COUNTRY_NAME', './GeoIP.dat') FROM weblogs; 
209.191.139.200 United States 
10.10.0.1 Unknown 





( 译 者 注 : 这 个 SQL 中 source_ip 应 该 是 ip， 正 确 的 语句 应 该 是 
SELECT ip, geoip(ip, ‘COUNTRY_NAME’, ’./GeoIP.dat’) FROM 
weblogs。) 


上 面 的 例子 中 返回 了 2 条 记录 ， 其 中 一 条 显示 这 个 IP 是 来 自 美国 
的 ， 而 另 一 条 显示 对 应 的 卫 无 对 应 的 地 理 位 置信 息 。 


这 个 geoip0) 函 数 含 有 3 个 参数 : 第 1 个 参数 是 IP 地 址 ， 可 以 是 字符 串 
类 型 或 者 long 类 型 ， 第 2 个 参数 是 一 个 字符 串 ， 可 选 的 值 有 
COUNTRY_NAME 或 DMA_CODE; 最 后 1 个 参数 是 数据 文件 名 ， 这 个 
文件 已 经 是 加 载 到 分 布 式 缓存 中 了 。 

















对 UDE 的 第 一 次 调用 《也 就 是 触发 调用 Java 函 数 中 evaluate 方 法 ) 会 
实例 化 一 个 LookupService 对 象 来 使 用 分 PARE VAT OCF 这 
个 查询 是 需要 保存 在 一 个 引用 中 的 。 因 此 ， 其 只 需 在 map 或 者 reduce 
task 的 初始 化 阶段 初始 一 次 ， 就 可 在 对 应 task 的 整个 生命 周期 中 使 用 。 
需要 注意 的 是 ，LookupService 具 《有 目 己 的 内 置 缓存 ， TH Ee 
LookupService.GEOIP_MEMORY_CACHE。 因 此 ， 这 个 优化 可 以 避免 在 
查询 JP 时， 频繁 访问 磁 抢 。 


下 面 是 evaluate() 方 法 的 源码 : 





@Override 
public Object evaluate(DeferredObject[] arguments) throws HiveException { 
if (argumentOIs[0] instanceof LongObjectInspector) { 
this.ipLong = ((LongObjectInspector)argumentOIs[0]).get(arguments [0].get()); 
} else { 
this.ipString = ((StringObjectInspector )argumentOIs[0] ) 
.getPrimitiveJavaObject(arguments[0].get()); 
} 


this.property = ((StringObjectInspector )argumentOIs[1]) 
.getPrimitiveJavaObject(arguments[1].get()); 
if (this.property != null) { 
this.property = this.property.toUpperCase(); 


} 
if (ls ==null){ 


if (argumentOIs.length == 3){ 
this.database = ((StringObjectInspector )argumentOIs[1] ) 
.getPrimitiveJavaObject(arguments[2].get()); 
File f = new File(database); 
if (!f.exists()) 
throw new HiveException(database+" does not exist"); 
try { 
ls = new LookupService ( f , LookupService.GEOIP_MEMORY_CACHE ); 
} catch (IOException ex){ 
throw new HiveException (ex); 








evaluate 方 法 中 的 证 语句 诀 定 了 将 返回 哪个 方法 的 数据 。 在 本 例 中 ， 
让 要 返回 的 内 容 是 国家 名 : 





if (COUNTRY_PROPERTIES.contains(this.property)) { 
Country country = ipString != null ? 
1ls.getCountry(ipString) : 1s.getCountry(ipLong); 

if (country == null) { 
return null; 

} else if (this.property.equals(COUNTRY_NAME)) { 
return country.getName(); 

} else if (this.property.equals(COUNTRY_CODE)) { 
return country.getCode(); 


assert(false); 
} else if (LOCATION_PROPERTIES.contains(this.property)) { 


} 





13.12 以 函数 的 方式 使 用 注解 


本 章 中 我 们 提 及 过 Description 标 注 ， 并 介绍 了 其 用 于 在 运行 时 为 
Hive 方 法 提供 说 明文 档 。UDF 中 还 存在 有 其 他 的 标注 ， 正 确 使 用 这 些 标 
Paa a 甚至 有 时 对 于 某 些 Hive 查 询 ， 可 以 提高 执行 
效率 ; 





public @interface UDFType { 
boolean deterministic() default true; 
boolean stateful() default false; 


boolean distinctLike() default false; 





13.12.1 ”定数 性 (deterministic〉 标注 


默认 情况 下 ， 对 于 大 多 数 的 得 询 来 说 ， 都 是 满足 定数 性 的 ， 因 为 它 
们 本 喘 就 具有 定数 性 。 当 然 rand0 函 数 是 个 例外 。 


如 末 一 个 UDF 是 非 定 数 的 ， 那 么 就 不 会 包含 在 分 区 裁剪 中 。 
下 面 是 使 用 rand0O) 函 数 的 ， 具 有 非 定数 性 的 查询 的 一 个 例子 : 
如 有 果 rand0O) 是 定数 的 ， 那 么 结果 只 会 在 计算 阶段 计算 一 次 。 因 为 包 


含有 rand0 的 碍 询 是 非 定 数 的 ， 因 此 对 于 每 行 数据 ，rand0 的 值 都 需要 重 
新 计算 一 次 。 








13.12.2 ”状态 性 (stateful) 标注 


几乎 所 有 的 UDF 默 认 都 是 有 状态 性 的 ， 而 rand0 函 数 是 无 状态 性 
的 ， 因 为 其 每 次 调用 都 返回 不 同 的 值 。stateful 标 注 适 用 于 如 下 情况 。 


D 有 状态 性 的 UDEF 只 能 使 用 在 SELECT 语句 后 面 ， 而 不 能 使 用 到 其 
他 如 WHEHRE、ON、ORDER、GROUP 等 语句 后 面 。 


D 当 一 个 查询 语句 中 存在 有 状态 性 的 UDF 时 ， 那 么 隐 含 的 信息 就 
是 ，SELECT 将 会 和 TRANSFORM (例如 ， 一 个 DISTRIBUTE、 








CLUSTER、SORT 语 句 ) 进行 类 似 的 处 理 ， 人 然后 会 在 对 应 的 reducer 内 部 
进行 执行 ， 以 保证 结果 是 预期 的 结 


O 如 果 状 态 性 标记 stateful 设 置 值 为 tue， 那 么 这 个 UDF 同 样 应 该 作 
为 非 定数 性 的 (即使 这 时 定数 性 标记 deterministic 的 值 是 显 式 设置 为 true 
的 ) 。 


详细 信息 请 参考 如 下 链 
接 : https://issues.apache.org/jira/browse/HIVE-1994. 


13.12.3 ”唯一 性 


有 些 函 数 ， 即 使 其 输入 的 列 的 值 是 非 排 重 值 ， 其 结果 也 是 类 似 于 使 
用 了 DISTINCT 进 行 了 排 重 操作 ， 这 类 场景 可 定义 为 具有 唯一 性 。 这 样 
ner 即使 实际 数据 中 有 重复 值 ， 其 最 终结 果 也 是 
唯一 排 重 值 。 


13.13 ZMS 


宏 命 令 提供 了 在 HiveQL 中 调用 其 他 函数 和 操作 符 来 定义 函数 的 功 
能 。 对 于 特定 的 情况 ， 使 用 宏 命 令 要 比 使 用 Java 编 写 UDF 或 使 用 Hive 的 
streaming 功 能 更 加 方便 ， 因 为 宏 命令 无 十 额外 编写 代码 或 脚本 。 


可 以 使 用 CREATE TEMPORARY MACRO 语 法 来 定义 一 个 宏 命 
令 。 下 面 是 一 个 使 用 宏 命 令 创 建 SIGMOID 函 数 的 例子 : 


hive> CREATE TEMPORARY MACRO SIGMOID (x DOUBLE) 1.0 / (1.0 + EXP(-x)); 
hive> SELECT SIGMOID(2) FROM src LIMIT 1; 

( 译 者 注 : 这 个 功能 实际 到 Apache Hive 0.10.0 版 本 还 没有 真正 提 
供 ， 对 于 这 个 问题 请 参考 : https://issues.apache.org/jira/browse/HIVE- 
2655) 





第 14 章 Streaming 


Hive 是 通过 利用 或 扩展 Hadoop 的 组 件 功 能 来 运行 的 ， 常 见 的 抽象 有 
InputFormat、 OutputFormat、Mapper 和 Reducer， 还 包含 一 些 自己 的 抽 
象 接 口 ， 例 如 SerializerDeserializer (SerDe)、 用 户 自 定义 函数 (UDF)〉 和 
StorageHandlers. 





这 些 组 件 都 是 Java 组 件 ， 不 过 Hive 将 这 些 复杂 的 底层 实现 隐藏 起 来 
了 ， 而 提供 给 用 户 通 过 SQL 语句 执行 的 方式 ， 而 不 是 使 用 Java 代 码 。 


Streaming 提 供 了 另 一 种 处 理 数据 的 方式 。 在 streaming job 中 ， 
Hadoop Streaming API 会 为 外 部 进程 开局 一 个 IO 管道 。 然 后 数据 会 被 传 
给 这 个 进程 ， 其 会 从 标准 输入 中 读 取 数据 ， 然 后 通过 标准 输出 来 写 结果 
数据 ， 最 后 返回 到 Streaming API job。 尽 管 Hive 并 没有 直接 使 用 Hadoop 
的 Streaming API， 不 过 它们 的 工作 方式 是 一 样 的 。 


这 种 管道 计算 模型 对 于 Unix 操 作 系 统 以 及 其 衍生 系统 ， 如 Linux 和 
Mac OS X 的 用 户 来 说 是 非常 熟悉 的 。 


Wa 


ae | 
CSi 提示 
一 此 提示 


Streaming 的 执行 效率 通常 会 比 对 应 的 编写 UDF 或 改写 
InputFormat 对 象 的 方式 要 低 。 管 道中 序列 化 然后 反 序列 化 数据 通常 
是 低 效 的 ， 而 且 以 通常 的 方式 很 难 调 试 整个 程序 。 不 过 ， 对 于 快速 
原型 设计 和 支持 非 Java 编 写 的 已 有 代码 来 说 是 非常 有 用 的 。 对 于 那 
些 不 想 写 Java 代 人 码 的 Hive 用 户 来 说 ， 这 也 是 个 高 效 的 方式 。 


Hive 中 提供 了 多 个 语法 来 使 用 streaming， 包 括 : MAPO 
REDUCE() 和 TRANSFORM()。 要 注意 的 重要 的 一 点 是 MAP() 实 际 上 并 
非 可 以 强制 在 map 阶 段 执行 streaming， 正 如 reduce 并 非 可 以 强制 在 reduce 
阶段 执行 streaming 一 样 。 因 为 这 个 原因 ， 对 于 相同 的 功能 ， 通 常 建议 使 
用 i 的 TRANSFORM() 语 句 ， 这 样 可 以 避免 误导 读者 对 查询 语句 产生 
































对 于 我 们 的 streaming 例 子 ， 我 们 将 使 用 到 一 个 表 名 为 的 小 表 ， 其 
Leone 分 别 是 coll 和 col2， 它 们 都 是 INT 类 型 的 ， 表 中 有 2 行 数 
HE : 


hive> CREATE TABLE a (col1 INT, col2 INT) 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; 


hive> SELECT * FROM a; 


hive> DESCRIBE a; 
a int 
b int 





14.1 [EA 


最 基本 的 streaming job 就 是 恒 等 运 算 。/bin/cat 这 个 shell 命 令 可 以 将 
传递 给 它 的 数据 直接 输出 ， 所 以 满足 恒 等 运 算 。 本 例 中 ，/bin/cat 这 个 
shell 假 定 已 经 安装 到 所 有 的 TaskTracker 节 点 了 。 实 际 上 任意 的 Linux 系 
统 都 会 包含 有 这 个 脚本 的 ! 稍 后 ， 我 们 将 展示 当 一 些 程序 没有 安装 到 集 
群 中 时 ， 通 过 Hive 如 何 将 这 些 程序 “加 载 ? 到 集群 中 : 





hive> SELECT TRANSFORM (a, b) 


> USING '/bin/cat' AS newA, newB 
> FROM default.a; 





14.2 ”改变 类 型 


TRANSEFORM 返 回 的 字段 的 数据 类 型 默认 是 字符 串 类 型 的 。 不 过 可 
以 通过 如 下 话 法 将 类 型 转换 成 其 他 数据 类 型 : 


hive> SELECT TRANSFORM (coli, col2) 


> USING '/bin/cat' AS (newA INT , newB DOUBLE) FROM a; 
4 5.0 
3 


2.0 


14.3 ”投影 变换 


Streaming 中 可 以 使 用 cut 命 令 提 取 或 者 映射 出 特定 的 字段 。 换 句 话 
说 ， 可 以 达到 和 SELECT 语句 相同 的 行为 : 


hive> SELECT TRANSFORM (a, b) 
> USING '/bin/cut -f1' 


> AS newA, newB FROM a; 
4 NULL 
3 NULL 





可 以 注意 到 ， 上 面 的 例子 中 ， 查 询 从 外 部 处 理 过 程 中 返回 的 只 有 一 
个 字段 ， 而 实际 期 望 的 是 2 个 字段 ， 因 此 字段 newB 的 值 总 是 NULL 。 默 
认 情 况 下 ，TRANSFORM 需 要 2 个 字段 ， 不 过 实际 上 可 以 为 比 其 小 的 任 
意 个 数 的 字段 : 
hive> SELECT TRANSFORM (a, b) 


> USING '/bin/cut -f1' 
> AS newA FROM a; 


4 
3 





14.4 操作 转换 


/bin/sed 程 序 〈 对 于 Mac OS X 系 统 是 /usr/bin/sed) 是 一 个 流 编 辑 器 。 
其 可 以 接受 输入 数据 流 ， 然 后 按照 用 户 的 指定 进行 编辑 ， 最 后 将 编辑 后 
aoe 的 输出 数据 流 中 。 如 下 例子 中 将 字符 串 “4” 蔡 换 成 了 字符 

“10”: 








hive> SELECT TRANSFORM (a, b) 


> USING '/bin/sed s/4/10/' 
> AS newA, newB FROM a; 
10 5 
3 2 





14.5 ”使 用 分 布 式 内 存 


到 目前 为 止 所 列举 的 streaming 例 子 都 是 UNIX 系 统 或 其 衍生 系统 目 
带 的 如 cat 和 sed 这 样 的 系统 脚本 程序 。 当 一 个 查询 所 需要 的 文件 没有 在 
每 个 TaskTracker 上 事先 安装 好 时 ， 用 户 需要 使 用 分 布 式 缓存 将 数据 或 者 
程序 文件 传输 到 集群 中 ， 然 后 在 job 完成 后 会 清理 掉 这 些 数 据 和 文件 。 
〈 译 者 注 : Hadoop 的 分 布 式 缓存 可 以 对 缓存 内 的 文件 安装 LRU 原 则 进 
行 删 除 ， 因 此 并 非 是 job 一 结束 就 立即 删除 挤 文 件 的 。) 

这 个 功能 很 有 8 用， 因为 在 大 规模 集群 上 安装 (有 时 需要 凶 载 》 大 量 
的 小 组 件 会 成 为 一 件 很 有 负担 的 事情 。 同 时 ， 绥 存 中 会 独立 保存 每 个 
job 的 缓存 文件 ， 而 不 会 相互 干扰 。 


下 面 的 例子 古 一 个 将 摄氏 温度 转换 成 华氏 温度 的 bash shell fill A: 











while read LINE 
do 


res=$(echo "scale=2;((9/5) * $LINE) + 32" | bc) 
echo $res 
done 


可 以 在 本 地 执行 这 个 脚本 来 测试 一 下 。 这 个 脚本 不 会 提示 输入 。 输 
入 100， 然 后 按 回 车 键 ， 这 时 这 个 进程 会 通过 标准 输出 打印 出 212.00; 
输入 力 一 个 数值 ， 然 后 程序 束 会 返回 男 一 个 相应 的 结果 。 用 户 可 以 持续 
地 输入 数值 ， 也 可 以 通过 Control + D 组 合 键 退 出 程序 终止 输入 。 


#!/bin/bash 





Hive 的 ADD FILE 功 能 可 以 将 文件 加 入 到 分 布 式 绥 存 中 。 而 被 增加 
的 文件 会 被 存储 到 每 个 task 节 点 机 器 的 当前 工作 目录 下 。 这 样 可 以 使 得 
transform task 直 接 使 用 脚本 而 不 用 确定 到 哪里 去 找 这 些 文件 : 








hive> ADD FILE ${env:HOME}/prog_hive/ctof.sh; 
Added resource: /home/edward/prog_hive/ctof.sh 


hive> SELECT TRANSFORM(col1) USING 'ctof.sh' AS convert FROM a; 


39.20 
37.40 


14.6 ”由 一 行 产 生 多 行 

到 目前 为 止 所 列举 的 例子 都 是 获取 一 行 输入 然后 产生 一 行 输出 。 同 
样 ， 可 以 使 用 Streaming 对 每 个 输入 行 产 生 多 行 输出 。 这 个 功能 可 以 产生 
类 似 于 EXPLODE() UDF 和 LATERAL VIEW 语 法 叫 的 输出 。 


给 定 一 个 输入 文件 $HOME/kv_data.txt， 其 内 容 如 下 : 


ki=v1, k2=v2 
k4=v4, k5=v5, k6=v6 





k7=v7,k7=v7, k3=v7 


我 们 希望 这 些 数据 能 够 以 表格 的 形式 展示 。 这 样 就 可 以 让 常见 的 
HiveQL 操 作 符 处 理 这 些 行 : 


k1 v1 
k2 v2 
k4 k4 


创建 如 下 这 个 Perl 脚本 ， 然 后 保存 为 $3HOME/split_kv.pl: 


#!/usr/bin/perl 
while (<STDIN>) { 
my $line = $_; 
chomp($line) ; 
my @kvs = split(/,/, $line); 
foreach my $p (@kvs) { 
my @kv = split(/=/, $p); 
print $kv[O] . "At" . $kv[1] . "\n"; 





创建 一 个 名 为 kv_data 的 表 。 这 张 表 只 定义 了 一 个 字段 。 行 格式 无 需 
进行 配置 ， 因 为 streaming 脚 本 会 对 输入 字段 进行 分 割 : 


hive> CREATE TABLE kv_data ( line STRING ); 





hive> LOAD DATA LOCAL INPATH '${env:HOME}/kv_data.txt' INTO TABLE kv_data; 





对 源 表 使 用 transform 脚 本 。 这 样 之 前 凌乱 的 ， 一 行 多 个 条 目的 格式 
就 转化 成 了 一 个 具有 2 个 字段 的 键 - 值 对 数据 : 


hive> SELECT TRANSFORM (line) 


k1 
k2 
k4 
k5 
k6 
k7 
k7 
k3 


> USING 'perl split_kv.pl' 
> AS (key, value) FROM kv_data; 
v1 
v2 
v4 
v5 
v6 
v7 
v7 
v7 





14.7 使 用 streaming 进 行 聚合 计算 


同样 可 以 使 用 streaming 做 类 似 于 Hive 的 内 置 函数 SUM 一 样 的 聚合 运 
算 。 这 是 因为 streaming 处 理 过 程 可 以 对 每 行 输入 返回 0 或 多 行 输出 。 


为 了 能 在 一 个 外 部 应 用 程序 中 完成 聚合 ， 脚 本 中 在 人 循环 外 面 先 定义 


了 一 个 计数 器 ， 然 后 ， 循 环 内 部 不 断 从 输入 流 中 读 取 输入 并 进行 计算 ， 
最 终 输出 sum 求 和 结果 : 





#!/usr/bin/perl 

my $sum=0; 

while (<STDIN>) { 
my $line = $; 


chomp($line) ; 
$sum=${sum}+${line}; 





print $sum; 


创建 一 个 表 并 导入 整数 数据 ， 每 行 一 个 整数 ， 用 于 训 试 : 


hive> CREATE TABLE sum (number INT); 


hive> LOAD DATA LOCAL INPATH '${env:HOME}/data_to_sum.txt' INTO TABLE sum; 
hive> SELECT * FROM sum; 





streaming fe Fy 4 yn i] 4) RRT F, JF FETRANSFORM#S i F(t 
用 。 这 个 处 理 过 程 将 会 返回 一 行 结果 ， 也 就 是 对 输入 求 和 后 的 结果 : 


hive> ADD FILE ${env:HOME}/aggregate.pl; 
Added resource: /home/edward/aggregate.pl 


hive> SELECT TRANSFORM (number) 
> USING 'perl aggregate.pl' AS total FROM sum; 
14 





不 过 可 惜 的 是 ， 不 能 够 像 UDAF SUM() 那 样 在 单个 查询 中 执行 多 个 
TRANSFORM 过 程 。 例 如 : 


hive> SELECT sum(number) AS one, sum(number) AS two FROM sum; 
14 14 





同时 ， 对 于 中 间 数 据 ， 如 果 不 使 用 CLUSTER BY 或 者 DISTRIBUTE 
BY 的 话 ， 那 么 这 个 job 可 能 会 执行 单个 的 非常 长 时 间 的 map 或 者 reduce 
task。 尽 管 并 非 所 有 的 操作 都 可 以 并 行 执 行 ， 不 过 大 多 数 操作 还 是 可 以 
的 。 下 一 节 将 讨论 如 何在 需要 的 时 候 以 并 行 的 方式 执行 streaming。 


14.8 CLUSTER BY, DISTRIBUTE BY, SORT 
BY 


Hive 提 供 了 语法 来 控制 数据 是 如 何 被 分 友和 排 夺 的。 这些 功 能 可 以 
应 用 在 大 多 数 的 查询 中 ， 不 过 在 执行 streaming 处 理 时 显得 特别 有 用 。 例 
如 ， 具 有 相同 键 的 数据 需要 分 及 到 同一 个 处 理 节点 上 ， 或 者 数据 需要 按 
照 指 定 列 或 指定 函数 进行 排序 。Hive 提 供 了 多 种 方式 来 控制 这 种 行为 。 


第 1 种 控制 这 种 行为 的 方法 就 是 CLUSTER BY 语句 ， 其 可 以 确保 类 
似 的 数据 可 以 分 发 到 同一 个 reduce task 中 ， 而 且 保 证 数据 是 有 序 的 。 


为 了 演示 CLUSTER BY 的 用 法 ， 让 我 们 来 看 一 个 特殊 的 例子 : 通过 
另外 一 种 方式 来 实现 第 1 章 中 所 介绍 的 Word Count 算 法 。 现 在 ， 我 们 将 
使 用 到 TRANSFORM 功 能 和 2 个 Python 脚本 ， 一 个 脚本 用 于 将 读 取 的 文 
本 的 每 行内 容 分 割 成 单词 ， 另 一 个 脚本 用 于 接受 字 频 数据 流 以 及 单词 的 
中 间 计 数值 (大 多 数 是 数字 “1”) ， 然 后 对 每 个 单词 的 词 频 求 和 汇总 。 


下 面 是 第 1 个 Python 脚本 ， 其 可 以 按照 空格 将 每 行内 容 分 割 成 单词 
( 按 空格 划分 对 于 标点 符号 等 可 能 不 太 合适 ) : 

















import sys 


for line in sys.stdin: 


words = line.strip().split() 
for word in words: 
print "%s\ti" % (word. lower()) 





不 必 说 明 所 有 的 Python 语 法 ， 可 以 很 容易 看 到 ， 这 个 脚本 从 通用 模 

块 sys 中 引入 了 常见 的 函数 ， 然 后 人 循环 获取 “标准 输入 流 ” 中 每 行内 容 (也 

就 是 调用 stdin 函 数 ) ， 再 按照 空格 对 每 行内 容 进行 划分 ， 生 成 一 个 单词 

合 words， 然 后 人 志 历 整个 集合 并 输出 每 个 单词 以 及 一 个 制 表 答 (也 就 
ED) ， 最 后 输出 每 个 单词 对 应 的 词 频 外。 


在 我 们 展示 第 2 个 Python 脚本 之 前 ， 让 我 们 先 讨 论 下 传递 给 这 个 脚 
本 的 数据 。 在 我 们 的 TRANSFORM Hive 查 询 中 ， 我 们 将 对 第 1 个 Python 
脚本 的 输出 词组 使 用 CLUSTER BY。 这 样 可 以 将 所 有 相同 的 单词 分 配 到 
同一 组 中 ， 每 行 一 对 数据 ， 每 对 的 数据 形式 是 单词 \t 次 数 : 

















因此 ， 第 2 个 Python 脚本 将 会 更 复杂 些 ， 因 为 其 需要 缓存 当前 处 理 
的 单词 ， 以 及 迄今 为 止 这 个 单词 出 现 的 次 数 。 当 处 理 下 一 个 单词 时 ， 这 
个 脚本 需要 输出 上 一 个 单词 的 词 频数 ， 然 后 重 置 缓存 。 


下 面 束 是 第 2 个 Python 肢 本 : 


import sys 


(last_key, last_count) = (None, 0) 
for line in sys.stdin: 
(key, count) = line.strip().split("\t") 
if last_key and last_key != key: 
print "%s\t%d" % (last_key, last_count) 
(last_key, last_count) = (key, int(count) ) 
else: 
last_key = key 
last_count += int(count) 


if last_key: 
print "%s\t%d" % (last_key, last_count) 





我 们 将 假设 这 2 个 Python 脚本 都 在 用 户 根 目录 下 。 


最 后 ， 我 们 来 看 下 2 个 脚本 结合 使 用 的 Hive 人 查询 语句 。 首 先 ， 我 们 
通过 CREATE TABLE 语 句 创 建 一 个 输入 表 ， 表 内 容 包 含 多 行 的 文本 数 
据 。 这 个 表 我 们 在 第 1 章 使 用 过 。 任 意 文本 文件 都 可 以 作为 这 张 表 的 数 
据 。 其 次 ， 创 建 的 表 word_count 用 于 保存 计算 后 的 输出 结果 。 其 有 2 个 
字段 ， 一 个 是 word( 表 示 单 词 )， 一 个 是 count( 表 示 次 数 )。 同 时 字段 分 隔 
符 是 \。 最 后 就 是 结合 使 用 这 2 个 脚本 进行 处 理 的 TRANSFORM 语 句 了 : 














hive> CREATE TABLE docs (line STRING); 


hive> CREATE TABLE word_count (word STRING, count INT) 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; 


hive> FROM ( 

FROM docs 

> SELECT TRANSFORM (line) USING '${env:HOME}/mapper.py' 

> AS word, count 

> CLUSTER BY word) wc 

> INSERT OVERWRITE TABLE word_count 

> SELECT TRANSFORM (wc.word, wc.count) USING '${env:HOME}/reducer.py' 


V 


> AS word, count; 
USING 语 名 指定 了 Python 脚本 所 在 的 绝对 路 径 。 


人 蔡 代 CLUSTER BY 的 最 方便 的 方式 就 是 使 用 DISTRIBUTE BY 和 
SORT BY。 使 用 它们 的 常见 场景 就 是 ， 用 户 期 望 将 数据 按照 某 个 字段 划 
分 ， 然 后 按照 另 一 个 字段 排序 。 实 际 上 ，CLUSTER BY word 等 价 于 
DISTRIBUTE BY word SORT BY word ASC。 


如 下 TRANSFORM 碍 询 的 字 频 输出 结果 是 按照 降序 排序 的 : 


FROM ( 
FROM docs 
SELECT TRANSFORM (line) USING '/.../mapper.py' 
AS word, count 











DISTRIBUTE BY word SORT BY word DESC) wc 
INSERT OVERWRITE TABLE word_count 
SELECT TRANSFORM (wc.word, wc.count) USING '/.../reducer.py' 
AS word, count; 





使 用 CLUSTER BY 或 者 使 用 结合 SORT BY 的 DISTRIBUTE BY 是 非 
常 重要 的 。 因 为 如 果 没 有 这 些 指示 ，Hive 可 能 无 法 合理 地 并 行 执行 
job， 所 有 的 数据 可 能 都 会 分 发 到 同一 个 reducer 上 ， 这 样 就 会 导致 整体 
job 执 行 时 间 延 长 。 


14.9 GenericMR Tools for Streaming to Java 


通常 情况 下 ， 使 用 streaming 是 为 了 将 非 Java 的 代码 结合 到 Hive 中 。 
正如 我 们 所 看 见 的 ，streaming 几 乎 适用 于 所 有 的 语言 。 使 用 Java 编 写 
streaming 也 是 可 以 的 ， 而 且 Hive 中 包含 了 GenericMR API 来 试图 为 
streaming 提 供 类 似 于 Hadoop 的 MapReduce API 的 这 样 的 接口 : 


FROM ( 
FROM src 
MAP value, key 
USING 'java -cp hive-contrib-0.9.0.jar 
org.apache.hadoop.hive.contrib.mr.example.IdentityMapper' 


AS k, v 
CLUSTER BY k) map_output 
REDUCE k, v 
USING 'java -cp hive-contrib-0.9.0.jar 
org.apache.hadoop.hive.contrib.mr.example.WordCountReduce' 
AS k, v; 





为 了 清楚 IdentityMapper 是 怎么 编写 的 ， 我 们 可 以 看 一 下 GenericMR 
所 提供 的 接口 。 其 中 Mapper 接 口 用 于 实现 常见 的 Mapper 实 现 方 法 。 其 
提供 了 一 个 map 方 法 ， 这 里 输入 是 字符 串 数组 类 型 String[] 的 列 值 : 


package org.apache.hadoop.hive.contrib.mr; 


public interface Mapper { 
void map(String[] record, Output output) throws Exception; 





IdentityMapper 不 会 对 输入 数据 做 任何 改变 而 会 将 其 传递 给 收集 器 
(collector) 。 在 功能 上 这 和 本 章 前 面部 分 所 介绍 的 /bin/cat 的 功能 是 一 
致 的 : 








package org.apache.hadoop.hive.contrib.mr.example; 


import org.apache.hadoop.hive.contrib.mr.GenericMR; 
import org.apache.hadoop.hive.contrib.mr.Mapper; 
import org.apache.hadoop.hive.contrib.mr.Output; 


public final class IdentityMapper { 
public static void main(final String[] args) throws Exception { 
new GenericMR().map(System.in, System.out, new Mapper() { 


@Override 
public void map(final String[] record, final Output output) throws Exception { 


output.collect(record); 


} 
3); 


} 


private IdentityMapper() { 
} 
} 





Reducer 接 口 提 供 了 第 一 列 字 符 串 ， 而 其 他 列 可 以 通过 记录 人 迭代 需 
获得 。 每 次 迭代 都 会 返回 一 对 字符 串 ， 其 中 第 0 个 元 系 是 重复 的 键 而 其 
下 一 次 元 素 是 值 。output 对 象 表示 输出 结 








package org.apache.hadoop.hive.contrib.mr; 
import java.util.Iterator; 
public interface Reducer { 


void reduce(String key, Iterator<String[]> records, Output output) 
throws Exception; 
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素 进 行 计数 。 当 所 有 的 记录 都 被 计数 后 ， 就 会 生成 一 个 由 键 及 其 对 应 次 
数 所 组 成 的 数组 作为 结果 : 


package org.apache.hadoop.hive.contrib.mr.example; 


import java.util.Iterator; 

import org.apache.hadoop.hive.contrib.mr.GenericMR; 
import org.apache.hadoop.hive.contrib.mr.Output; 
import org.apache.hadoop.hive.contrib.mr.Reducer; 


public final class WordCountReduce { 


private WordCountReduce() { 
} 


public static void main(final String[] args) throws Exception { 
new GenericMR().reduce(System.in, System.out, new Reducer() { 


public void reduce(String key, Iterator<String[]> records, Output output) 
throws Exception { 


int count = 0; 

while (records.hasNext()) { 
// note we use col[1] -- the key is provided again as col[0] 
count += Integer.parseInt(records.next()[1]); 

} 

output.collect(new String[] {key, String.valueOf(count)}); 


} 
}); 
} 





14.10 ”计算 cogroup 


在 MapReduce 程 序 中 经 常会 对 多 数据 集 进行 JOIN 连 接 处 理 ， 然 后 使 
用 TRANSFORM 进 行 处 理 。 使 用 UNION ALL 和 CLUSTER BY， 我 们 可 
以 实现 GROUP BY 操作 的 常见 效果 。 ( 译 者 注 : 这 里 应 该 是 COGROUP 
BY 而 不 是 GROUP BY) 








kya 
ae 提示 
Pig 提 供 了 一 个 原生 的 COGROUP BY 操作 。 


假设 我 们 有 多 个 不 同 源 的 日 志文 件 ， 它 们 具有 相同 的 schema。 我 们 
期 望 将 它们 合并 在 一 起 ， 然 后 通过 一 个 reduce_script 脚 本 进行 分 析 : 


FROM ( 
FROM ( 
FROM order_log ol 
- User Id, order Id, and timestamp: 
SELECT ol.userid AS uid, ol.orderid AS id, av.ts AS ts 


UNION ALL 


FROM clicks_log cl 
SELECT cl.userid AS uid, cl.id AS id, ac.ts AS ts 


) union_msgs 
SELECT union_msgs.uid, union_msgs.id, union_msgs.ts 
CLUSTER BY union_msgs.uid, union_msgs.ts) map 
INSERT OVERWRITE TABLE log_analysis 
SELECT TRANSFORM(map.uid, map.id, map.ts) USING 'reduce_script' 
AS (uid, id, ...); 





[1] 这 个 例子 所 使 用 到 的 源码 和 概念 来 自 于 Larry Ogrodnek 在 2009 年 7 月 14 
日 在 Bizo 开 发 博客 上 发 表 的 “Custom Map Scripts and Hive” 博 文 。 


[2] 这 是 最 简单 的 处 理 方式 。 我 们 也 可 以 缓存 单词 的 次 数 并 直接 输出 最 终 
词 频数 。 这 样 处 理会 减少 WO 开销 ， 因 此 将 会 更 快 ， 但 是 也 因此 ， 其 实 
现 起 来 要 更 加 复杂 。 


第 15 草 ” 目 定 义 Hive 文 件 和 记录 格 
z 


Hive 可 以 通过 多 种 方式 目 定 义 其 功能 。 首 先 ，Hive 具 有 变量 和 属 
性 ， 这 个 我 们 在 第 2.7.2 市 “变量 和 属性 ”中 讨论 过 了 。 其 次 ， 用 户 可 以 通 
过 目 定 义 UDF 来 扩展 Hive 功 能 ， 在 第 13 半 我们 有 讨论 过 。 最 后 ， 用 户 可 
以 目 定 义 文件 和 记录 格式 ， 这 个 是 本 章 将 进行 讨论 的 内 容 。 














15.1 文件 和 记录 格式 


Hive 中 文件 格式 间 有 具有 明显 的 差 寞 ， 例 如 文件 中 记录 的 编码 方式 、 
记录 格式 以 及 记录 中 字 节 流 的 编码 方式 都 是 不 同 的 。 


本 书 到 目前 为 止 都 是 使 用 文本 文件 格式 存储 的 ， 也 束 是 CREATE 
TABLE 语句 中 默认 的 STORED AS TEXTFILE (请 参考 第 3.3 节 “文本 文 
件数 据 编码 ”中 的 介绍 ) 。 在 文本 文件 中 每 一 行 数据 就 是 一 条 记录 。 大 
多 数 情 况 下 这 些 记录 使 用 默认 的 分 隔 符 ， 侦 然 有 一 些 样 例 数据 使 用 逗号 
F aa a a 
XML“ 文 档 ”。 


对 于 Hive 而 言 ， 文 本 文件 格式 选择 和 记录 格式 是 对 应 的 。 我 们 将 首 
先 讨 论文 本 格式 ， 然 后 再 讨论 不 同 的 记录 格式 ， 以 及 在 Hive 中 如 采 使 用 


这 些 格式 。 




















15.2 ”阐明 CREATE TABLE 句 式 


贯穿 本 书 ， 我 们 已 经 介绍 了 创建 表 的 例子 。 用 户 可 能 已 经 发 现 
CREATE TABLE 语 句 具 有 多 种 多 样 的 语法 。 例 如 STORED AS 
SEQUENCEFILE, ROW FORMAT DELIMITED. SERDE, 
INPUTFORMAT、OUTPUTFORMAT 这 些 语法 。 本 章 将 涵 括 这 个 语法 
的 大 部 分 内 容 并 给 出 样 例 。 但 是 需要 注意 的 是 ， 某 些 语法 是 其 他 语法 的 
快捷 用 法 ， 也 就 是 说 ， 可 以 使 概念 变 得 更 易 理解 的 语法 。 例 如 ， 语 法 
STORED AS SEQUENCEFILE 的 蔡 代 方式 是 指定 INPUTFORMAT 为 
org.apache.hadoop.mapred.SegquenceFileInputFormat， 并 指定 
OUTPUTFORMAT 为 
org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat。 








下 面 我 们 创建 一 些 表 然后 使 用 DESCRIBE TABLE EXTENDED 语 句 
来 查看 下 内 部 的 实际 变化 情况 。 首 先 ， 我 们 将 创建 一 个 简单 的 表 ， 然 后 
对 其 进行 描述 〈 这 里 我 们 对 输出 进行 了 格式 化 ， 实 际 上 Hive 本 身 输 出 效 
果 不 是 这 样 ) ( 译 者 注 : 从 Apache Hive v0.10.0 开 始 EXTENDED 输出 也 
将 是 部 分 格式 化 的 ， 和 当前 的 输出 效果 还 是 有 差异 的 ) : 


hive> create table text (x int) ; 
hive> describe extended text; 

OK 

x int 


Detailed Table Information 
Table(tableName:text, dbName:default, owner:edward, createTime:1337814583, 
lastAccessTime:0, retention:0, 
sd:StorageDescriptor( 
cols: [FieldSchema(name:x, type:int, comment:null)], 
location: file: /user/hive/warehouse/text, 
inputFormat:org.apache.hadoop.mapred.TextInputFormat, 
outputFormat:org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat, 
compressed: false, 
numBuckets: -1, 
serdeInfo:SerDeInfo( 
name:null, 
serializationLib:org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, 
parameters: {serialization.format=1} 


) 

bucketCols:[], sortCols:[], parameters:{}), partitionkeys:[], 
parameters: {transient_lastDd1Time=1337814583}, 

viewOriginalText:null, viewExpandedText:null, tableType:MANAGED_ TABLE 





现在 我 们 再 使 用 STORED AS SEQUENCEFILE 语句 创建 一 张 表 ， 


用 于 对 比 : 


hive> CREATE TABLE seq (x int) STORED AS SEQUENCEFILE; 
hive> DESCRIBE EXTENDED seq; 

OK 

x int 


Detailed Table Information 
Table(tableName:seq, dbName:default, owner:edward, createTime:1337814571, 
lastAccessTime:0, retention:0, 
sd:StorageDescriptor( 
cols: [FieldSchema(name:x, type:int, comment:null)], 
location: file: /user/hive/warehouse/seq, 
inputFormat:org.apache.hadoop.mapred.SequenceFileInputFormat, 


outputFormat:org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat, 

compressed:false, numBuckets:-1, 

serdeInfo:SerDeInfo( 
name:null, 
serializationLib:org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, 
parameters: {serialization.format=1} 


) 

bucketCols:[], sortCols:[], parameters:{}), partitionkeys:[], 

parameters: {transient_lastDd1Time=1337814571}, 

viewOriginalText:null, viewExpandedText:null, tableType:MANAGED_TABLE 
) 


Time taken: 0.107 seconds 








除非 被 Hive 的 强大 功能 所 迷惑 ， 否 则 很 容易 找 出 这 2 个 表 的 差异 。 
STORED AS SEQUENCEFILE 语 名 改变 了 InputFormat 和 OutputFormat 的 
值 : 


inputFormat:org.apache.hadoop.mapred.TextInputFormat, 
outputFormat:org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat, 


inputFormat:org.apache.hadoop.mapred.SequenceFileInputFormat, 
outputFormat:org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat, 





当 从 表 中 读 取 数据 时 ，Hive 会 使 用 到 InputFormat; m AKPS A 
数据 时 ; 其 会 使 用 OutputFormat。 


a a, 
a3 4 
E a ”提示 


InputFormat 会 从 文件 中 该 取 键 - 值 对 。 默 认 情 况 下 ，Hive 会 直 
接 忽 略 挥 键 的 内 容 而 只 是 有 值 中 的 数据 。 这 是 因为 键 来 自 于 
a 是 表示 块 中 的 字 节 边界 的 一 个 长 整 型 数值 (其 并 非 
用 户 数据 )。 


自 
rar 


far 
Ls 


本 章 后 面部 分 将 描述 表 元 数据 的 其 他 方面 


15.3 ”文件 格式 


我 们 在 第 3.3 节 “文本 文件 数据 编码 ”中 讨论 过 使 用 的 最 简单 的 数据 格 
式 是 文本 文件 格式 ， 可 以 任意 的 分 隔 符 进行 分 制 。 同 时 这 也 是 默认 的 文 
件 格式 ， 等 价 于 在 创建 表 时 通过 STORED AS TEXTFILE 语 句 指 定 使 用 
文本 存储 格式 。 


文本 文件 格式 便于 和 其 他 工具 (如 Pig，Unixt 文本 工具 中 的 grep、 
sed 和 awk 等 ) 共享 数据 。 同 时 文本 文件 也 便于 查看 和 编辑 。 不 过 ， 相 对 
于 二 进 制 文 件 ， 文 本 文件 存储 空间 要 大 。 正 如 在 第 11 章 中 我 们 讨论 过 
的 ， 可 以 使 用 压缩 ， 但 是 如 果 使 用 二 进 制 文件 存储 格式 的 话 ， 则 既 可 以 
节约 存储 空间 ， 也 可 以 提高 IO 性 能 。 





15.3.1 SequenceFile 


其 中 一 种 存储 格式 是 SequenceFile 文 件 存 储 格式 ， 在 定义 表 结构 时 
可 以 通过 STORED AS SEQUENCEFILE 语 句 指 定 。 


SequenceFile 文 件 是 含有 键 - 值 对 的 二 进 制 文件 。 当 Hive 将 查询 转换 
MapReduce job 时 ， 对 于 指定 的 记录 ， 其 取决 使 用 哪些 合适 的 键 - 值 
对 。 





SequenceFile 是 Hadoop 本 号 就 可 以 文 持 的 一 种 标准 文件 格式 ， 因 为 
它 也 是 在 Hive 和 其 他 Hadoop 相 关 的 工具 中 共享 文件 的 可 以 接受 的 选择 。 
而 对 于 Hadoop 生 态 系统 之 外 的 其 他 工具 而 言 ， 其 并 不 适合 使 用 。 正 如 我 
们 在 第 11 章 中 讨论 过 的 ，SequenceFile 可 以 在 块 级 别 和 记录 级 别 进行 压 
缩 ， 这 对 于 优化 磁盘 利用 率 和 LO 来 说 非常 有 意义 。 同 时 仍然 可 以 文 持 
按照 块 级 别 的 文件 分 割 ， 以 方便 并 行 处 理 。 


Hive 所 文 持 的 另 一 种 高 效 二 进 制 文件 格式 就 是 RCFile。 











15.3.2 RCfile 


大 多 数 的 Hadoop 和 Hive 存 储 都 是 行 式 存储 的 ， 在 大 多 数 场景 下 ， 这 
征 比较 高 效 的 。 这 种 高 效 归根 于 如 下 几 个 原因 : 大 多 数 的 表 具 有 的 字段 
个 数 痢 不 大 一 般 就 1 到 20 个 字段 〉; 对 文件 按 块 进行 压 缩 对 于 需要 处 





理 重 复数 据 的 情况 比较 高 效 ， 同 时 很 多 的 处 理 和 调试 工具 《例如 more、 
head、awk) 都 可 以 很 好 地 应 用 于 行 式 存储 的 数据 。 


并 非 所 有 的 工具 和 数据 存储 都 是 采用 行 式 存储 的 方式 的 ， 对 于 特定 
类 型 的 数据 和 应 用 来 说 ， 采 用 列 式 存 储 有 时 会 更 好 。 例 如 ， 如 果 指 定 的 
表 具 有 成 百 上 二 个 字段 ， 而 大 多 数 的 查询 只 需要 使 用 到 其 中 的 一 小 部 分 
字段 ， 这 时 扫 摘 所 有 的 行 而 过 滤 挥 大 部 分 的 数据 显然 是 个 浪费 。 然 而 ， 
如 果 数 据 是 按照 列 而 不 是 行进 行 存 储 的 话 ， 那 么 只 要 对 其 需要 的 列 的 数 
所 进行 扫描 就 可 以 了 ， 这 样 可 以 提高 性 能 。 


对 于 列 式 存 储 而 言 ， 进 行 压缩 通常 会 非 党 高效， 特别 是 在 这 列 的 数 
WRA BURT BIN ee (只 有 很 少 的 排 重 值 时 〉。 同 时 ， 一 些 列 式 存储 
并 不 需要 物理 存储 null 值 的 列 。 


基于 这 些 场景 ，Hive 中 才 设 计 了 RCFile。 
尽管 本 书 提供 了 非常 有 价值 的 信息 资源 ， 但 是 有 时 查找 信息 的 最 好 


方式 还 是 查看 源 代码 本 身 。 关 于 Hive 中 的 像 RCFile 这 样 的 列 式 存 储 是 如 
何 工 作 的 最 好 的 描述 可 以 在 源 代码 中 看 到 : 























cd hive-trunk 
find . -name "RCFile*" 
vi ./ql/src/java/org/apache/hadoop/hive/ql/io/RCFile.java 
* <p> 
* RCFile stores columns of a table in a record columnar way. It first 


* partitions rows horizontally into row splits. and then it vertically 

* partitions each row split in a columnar way. RCFile first stores the meta 

* data of a row split, as the key part of a record, and all the data of a row 
* split as the value part. 

* </p> 











Hive 功 能 强大 的 一 个 方面 体现 在 在 不 同 的 存储 格式 间 转 换 数 据 非 常 
地 简单 。 存 储 信息 存放 在 了 表 的 元 数据 信息 中 。 当 对 表 执 行 一 个 
SELECT 人 查询 时 ， 以 及 癌 其 他 表 中 执行 INSERT 操 作 时 ，Hive 就 会 使 用 这 
个 表 的 元 数据 信息 中 提供 的 内 容 ， 然 后 自动 执行 转换 过 程 。 这 样 使 用 可 
以 有 多 种 选择 ， 而 不 需要 额外 的 程序 来 对 不 同 的 存储 格式 进行 转换 。 


可 以 在 创建 表 时 使 用 ColumnarSerDe、RCFileInputFormat 和 
RCFileOutputFormat: 














hive> select * from a; 
OK 
4 5 


3 2 
Time taken: 0.336 seconds 
hive> create table columnTable (key int , value int) 
> ROW FORMAT SERDE 
‘org. apache.hadoop.hive.serde2.columnar.ColumnarSerDe' 
STORED AS 
INPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileInputFormat ' 
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileOutputFormat'; 


> 
> 
> 
> 


hive> FROM a INSERT OVERWRITE TABLE columnTable SELECT a.coli, a.col2; 





不 可 以 使 用 通常 可 以 打开 SequenceFile 的 工具 来 打开 RCFile。 不 
过 ，Hive 提 供 了 一 个 rcfilecat 工 具 来 展示 RCFile 文 件 内 容 : 


$ bin/hadoop dfs -text /user/hive/warehouse/columntable/000000_0 
text: java.io.IOException: WritableName can't load class: 
org.apache.hadoop.hive.ql.io.RCFile$keyBuffer 


$ bin/hive --service rcfilecat /user/hive/warehouse/columntable/000000_0 
4 5 
3 2 





15.3.3 ”示例 自 定 义 输入 格式 : DualInputFormat 


很 多 种 数据 库 允 许 用 户 执 行 没 有 FROM 语句 的 SELECT 语句 。 这 可 
用 于 执行 简单 的 计算 过 程 ， 例 如 SELECT 1+2。 如 果 Hive 不 允许 执行 这 
种 类 型 的 查询 的 话 ， 那 么 其 实 可 以 通过 从 某 个 存在 的 标准 中 选取 数据 ， 
然后 将 结果 限制 到 一 行 ， 来 达到 同样 的 效果 ;或 者 用 户 可 以 创建 一 个 只 
有 一 行 数据 的 表 。 一 些 数 据 库 提供 了 一 个 名 为 dual 的 表 ， 其 只 有 一 行 数 
据 ， 用 来 满足 这 种 使 用 场景 。 


默认 情况 下 ， 标 准 的 Hive 表 使 用 的 输入 格式 是 TextInputFormat。 
TextInputFormat 会 对 输入 的 零 个 或 多 个 划分 进行 计算 。 这 个 框架 可 以 打 
开 这 些 划 分 文件 ， 然 后 使 用 一 个 RecordReader 来 读 取 划分 中 的 数据 。 文 
本 中 每 一 行 都 会 成 为 一 条 输入 记录 。 为 了 创建 一 个 适用 于 dual 表 的 输入 
格式 ， 我 们 需要 创建 一 个 输入 格式 ， 要 求 其 只 会 返回 一 个 只 有 一 行 数据 
的 划分 ， 而 不 管 输入 路 径 是 什么 由 。 


在 下 面 这 个 例子 中 ，DualInputFormat 只 会 返回 一 个 划分 : 





public class DualInputFormat implements InputFormat{ 
public InputSplit[] getSplits(JobConf jc, int i) throws IOException { 
InputSplit [] splits = new DualInputSplit[1]; 
splits[0]= new DualInputSplit(); 
return splits; 


public RecordReader<Text, Text> getRecordReader(InputSplit split, JobConf jc, 


Reporter rprtr) throws IOEXception { 
return new DualRecordReader(jc, split); 
} 
} 








下 面 这 个 例子 中 划分 只 有 一 行 数 据 。 不 需要 进行 序列 化 或 反 序 列 化 
操作 : 
public class DualInputSplit implements InputSplit { 
public long getLength() throws IOException { 


return 1; 


public String[] getLocations() throws IOException { 
return new String [] { "localhost" }; 


public void write(DataOutput d) throws IOException { 


public void readFields(DataInput di) throws IOException { 
} 








DualRecordReader 中 有 一 个 布尔 值 变 量 hasNext。 当 第 1 次 调用 
next () 函数 后 ， 其 值 就 设置 成 了 false。 因 此 ， 这 个 记录 读 取 器 返回 唯 
Ta JA Ja WiZ 结束 了 : 





public class DualRecordReader implements RecordReader<Text, Text>{ 
boolean hasNext=true; 
public DualRecordReader(JobConf jc, InputSplit s) { 


} 
public DualRecordReader(){ 


public long getPos() throws IOException { 
return 0; 


public void close() throws IOException { 


} 
public float getProgress() throws IOException { 
if (hasNext ) 
return 0©.0f; 
else 
return 1.0f; 


} 

public Text createKey() { 
return new Text(""); 

} 

public Text createValue() { 
return new Text(""); 


public boolean next(Text k, Text v) throws IOException { 
if (hasNext){ 
hasNext=false; 
return true; 
} else { 
return hasNext; 


} 


i 


下 面 我 们 创建 一 个 使 用 Do ee 式 和 默认 的 
HivelgnoreKey TextOutPutFormat 输 出 格式 的 表 ， 然 后 从 这 个 表 中 选取 下 
数据 ， 看 其 是 否 只 访问 一 个 空 行 。 输 入 格式 的 jar 包 需要 包含 在 
HADOOP 的 ]ib 目 录 下 或 者 放置 在 Hive 的 auxlib 目 录 下 。 





client.execute("add jar dual.jar"); 
client.execute("create table dual (fake string) "+ 
"STORED AS INPUTFORMAT 'com.m6d.dualinputformat.DualInputFormat ' "+ 
"OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutput Format'"); 
client.execute("select count(1) as cnt from dual"); 


String row = client.fetchOne(); 
assertEquals("1", row); 
client.execute("select * from dual"); 
row = client.fetchOne(); 
assertEquals( "", row); 





15.4 ”记录 格式 : SerDe 


SerDe 是 序列 化 / 反 序 列 化 的 简写 形式 。 一 个 SerDe 包 含 了 将 一 条 记 
录 的 非 结 构 化 字 节 ( 它 是 文件 存储 的 一 部 分 ) 转化 成 Hive 可 以 使 用 的 一 
条 记录 的 过 程 。 可 以 使 用 Java 来 实现 SerDe。Hive 本 身 自 带 了 几 个 内 置 
的 SerDe， 还 有 其 他 一 些 第 三 方 的 SerDe 可 供 选 择 使 用 。 


在 内 部 ，Hive 引 擎 使 用 定义 的 InputFormat 来 读 取 一 行 数据 记录 。 这 
行 记录 之 后 会 被 传递 给 SerDe.deserialize() 方 法 进行 处 理 。 


简单 的 SerDe 除 非 需要 特定 的 属性 时 才 会 完整 地 实例 化 茶 个 对 象 。 


下 面 这 个 例子 使 用 一 个 RegexSerDe 来 处 理 标准 格式 的 Apache Web 
日 志 。 这 个 RegexSerDe 是 作为 Hive 分 文 的 标准 功能 来 使 用 的 : 








CREATE TABLE serde_regex( 
host STRING, 
identity STRING, 
user STRING, 
time STRING, 
request STRING, 
status STRING, 
size STRING, 
referer STRING, 
agent STRING) 
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' 
WITH SERDEPROPERTIES ( 
“input.regex" = "([^A ]*) (E^ ]*) (T^ 1*) (-INNTEANI TEND) 
(EA 和、 本 | IAA) (-1[0-9]*) (-1[0-9]*)(?: (LA N'IS DEA" SA") 
([4 AUTEN PANT AAT) 2", 
"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s" 


STORED AS TEXTFILE,; 





现在 我 们 可 以 载 入 数据 ， 然 后 查询 看 看 了 : 


hive> LOAD DATA LOCAL INPATH "../data/files/apache.access.log" INTO TABLE serde_regex 


F 
hive> LOAD DATA LOCAL INPATH "../data/files/apache.access.2.log" INTO TABLE serde_reg 
ex; 





hive> SELECT * FROM serde_regex ORDER BY time; 


(为 便于 展示 ， 这 里 有 调整 正则 表达 式 的 显示 ) 


15.5 CSV 和 TSV SerDe 


那么 CSV (逗号 分 隔 值 ) 和 TSV 〈 回 车 键 分 隔 符 ) 文件 呢 ? 当然 ， 
对 于 如 数值 数据 的 简单 数据 来 说 ， 就 和 我 们 前 面 看 到 的 一 样 ， 用 户 只 需 
要 使 用 默认 的 文件 格式 并 制定 字段 分 隔 符 即 可 。 不 过 ， 这 种 简单 的 处 理 
方式 既 无 法 处 理 字 符 串 中 自身 包含 喜与 或 回 车 键 的 情况 ， 也 无 法 处 理 其 
他 常见 的 转换 ， 例 如 ， 是 否 对 字符 串 都 加 引号 或 不 加 引号 ， 或 者 每 个 文 
件 的 第 一 行 是 否 需要 显示 “ 列 名 数据 头 ”。 


首先 ， 如 果 有 列 名 数据 头 的 话 ， 那 么 通常 将 这 行 数据 移 除 也 是 可 以 
的 。 这 样 有 多 种 第 三 方 SerDe 来 处 理 CSV 或 者 TSV 文 件 。 对 于 CSV 文 件 
来 说 ， 可 以 考虑 使 用 CSVSerDe: 




















ADD JAR /path/to/csv-serde.jar; 


CREATE TABLE stocks(ymd STRING, ...) 
ROW FORMAT SERDE 'com.bizo.hive.serde.csv.CSVSerde' 
STORED AS TEXTFILE 





尽管 支持 TSV 应 该 是 与 CSV 类 似 的 ， 但 是 在 写本 书 时 还 没有 合适 的 
第 三 方 TSV SerDe 可 供 使 用 。 


15.6 ObjectInspector 


在 外 壳 的 下 面 ，Hive 使 用 一 个 名 为 ObjectInspector 的 检查 器 来 将 记 
录 转 换 成 Hive 可 以 访问 的 对 象 。 








15.7 Thing Big Hive Reflection ObjectInspector 


Think Big Analytics 创建 了 一 个 名 为 BeansStructObjectInspector 的 基 
于 Java 反 射 机 制 的 ObjectInspector。 使 用 JavaBean 模 型 的 反射 机 制 ， 任 何 
对 象 的 “属性 ”信息 都 可 以 通过 get 方 法 获得 ， 或 者 作为 public 成 员 变 量 在 
查询 中 进行 引用 。 

下 面 是 个 介绍 如 何 使 用 BeansStructObjectInspector 的 例子 : 


public class SampleDeserializer implements Deserializer { 


@Override 
public ObjectInspector getObjectInspector() throws SerDeException { 


return BeansStructObjectInspector.getBeansObjectInspector(YourObject. class); 





15.8 XML UDF 


XMLAZA AEA, XE Hive A XML EEA — “SK 
的 数据 库 平台 。 众 多 原因 之 一 就 是 大 型 XML 文 档 解析 和 处 理 所 需 要 的 
复杂 性 和 资源 消耗 使 得 Hadoop 非 常 适合 作为 一 个 XML 数据 库 平 台 ， 
为 Hadoop 可 以 并 行 地 处 理 XML 文 要 ，Hive 也 成 为 了 解决 XML 相关 数据 
的 完美 工具 。 此 外 ，HiveQL 原 生 就 支持 访问 XML 的 租 套 元 素 和 值 ， 然 
后 进一步 地 ， 可 以 允许 对 骨 套 的 字段 、 值 和 属性 进行 连接 操作 。 


XPath (XML 路 径 语 言 ) 是 一 个 由 W3C 创 建 的 用 于 定位 XML 文 档 指 
定 内 容 的 全 球 性 的 标准 。 使 用 XPath 作为 XML 查询 语言 的 话 Hive 可 以 从 
XML 中 提取 数据 并 进入 Hive 系 统 中 进行 其 他 处 理 ， 这 使 得 Hive 对 于 
XML 处 理 显得 极其 有 用 。 


XPath 将 XML 文档 建 模 成 一 个 节点 树 。 并 提供 了 访问 如 字符 串 、 数 
值 和 布尔 型 等 基本 数据 类 型 的 功能 。 


尽管 如 Oracle XML DB 和 MarkLogic 等 商业 解决 方案 都 提供 了 原生 
的 XML 数 据 库 解决 方案 ， 但 作为 开源 软件 的 Hive 利 用 Hadoop 的 PB 级 别 
的 并 行 处 理 架 构 给 更 广泛 高 效 的 XML 数 据 库 带 来 了 更 多 的 生气 。 











15.9 XPath 相关 的 函数 


Hive 中 包含 有 一 些 从 Hive 0.6.0 发 行 版 中 引入 的 XPath 相关 的 
UDF (115-1) . 


表 15-1 XPath 相关 的 UDEF 


ps tte 












































xpath_long 返回 一 个 长 整 型 数值 


xpath_double, xpath_number 返回 一 个 双 精 度 浮 点 数 数值 


返回 























下 面 的 例子 展示 的 是 对 于 律 数 字符 串 使 用 这 些 函 数 的 情况 : 





hive> SELECT xpath(\'<a><b id="foo">b1i</b><b id="bar">b2</b></a>\',\'//@id\' ) 
> FROM src LIMIT 1; 
[foo", "bar ] 


hive> SELECT xpath (\'<a><b class="bb">b1</b><b>b2</b><b>b3</b><c class= "bb">c1</c> 
<c>c2</c></a>\', \'a/*[@class="bb"]/text()\') 
> FROM src LIMIT 1; 


[b1", "c1] 
(为 排版 好 看 ， 所 以 将 例子 中 长 长 的 XML 字 符 串 进行 了 转行 。) 


hive> SELECT xpath_double (\'<a><b>2</b><c>4</c></a>\', \'a/b + a/c\') 
> FROM src LIMIT 1; 
6.0 


15.10 JSON SerDe 


如 果 用 户 想 使 用 Hive 人 查询 JSON 格 式 的 数据 ， 那 该 怎么 办 呢 ? 如 果 
每 行 部 只 有 一 个 JSON“ 文 件 "的 话 ， 那 么 用 户 可 以 使 用 TEXTFILE 作 为 输 
入 输出 文件 格式 ， 然 后 使 用 一 个 JSON 的 SerDe 来 将 JSON 文 档 作为 一 条 
记录 进行 解析 。 

有 一 个 第 三 方 的 JSON SerDe， 其 是 在 一 个 Google“ 编 程 夏令 营 "项 目 
中 开启 的 ， 随 后 被 其 他 的 社区 贡献 者 克隆 和 开启 新 的 分 支 。Think Big 
Analytics 也 创建 了 自己 的 分 支 并 增加 了 增强 功能 ， 后 面 我 们 将 进行 讨 


VE o 





在 下 面 例 子 中 ， 这 个 SerDe 用 于 从 JSON 数 据 中 抽取 出 一 些 域 ， 这 些 
数据 假设 是 来 目 东 个 信息 系统 的 。 并 非 要 解析 出 JSON 中 所 有 的 字段 。 
而 那些 解析 出 来 的 字段 都 将 作为 表 的 字段 : 


CREATE EXTERNAL TABLE messages ( 
msg_id BIGINT, 
tstamp STRING, 
text STRING, 
user_id BIGINT, 
user_name STRING 


) 
ROW FORMAT SERDE "org.apache.hadoop.hive.contrib.serde2.JsonSerde" 
WITH SERDEPROPERTIES ( 

"msg_id"="$. id", 

"tstamp"="$.created_at", 

"text"="$.text", 

"user_id"="$.user.id", 

"user_name"="$.user.name" 


) 
LOCATION '/data/messages'; 





上 面 语句 中 的 WITH SERDEPROPERTIES 是 Hive 提 供 的 一 个 功能 ， 
允许 用 户 定 义 一 些 可 以 传递 给 SerDe 的 属性 信息 。 在 合适 的 情况 下 SerDe 
可 以 读 取 这 些 属性 。Hive 本 身 并 不 关心 这 些 属性 表达 什么 含义 。 


在 本 例 中 ， 这 些 属 性 用 于 将 JSON 文 要 和 表 的 字段 对 应 起 来 。 像 
$.user.id 这 样 的 字符 串 表 示 获 取 每 条 记录 ， 用 $ 来 表示 ， 然 后 查找 user 的 
键 。 本 例 中 也 就 是 假定 其 是 一 个 JSON map， 最 后 解析 出 user 中 id 键 所 对 
应 的 值 。 这 里 idq 键 所 对 应 的 值 将 对 应 于 表 中 的 user_id 字 段 。 




















一 旦 定义 好 之 后 ， 那 么 用 户 就 可 以 像 通 常 一 样 执 行 查询 ， 根 本 不 用 
关心 查询 是 如 何 从 JSON 中 获取 数据 的 ! 


15.11 Avro Hive SerDe 


Avro 是 一 个 序列 化 系统 ， 其 主要 特点 是 它 是 一 个 进化 的 模式 驱动 的 
二 进 制 数 据 存储 模式 。 开 始 的 时 候 ，Avro 的 目标 和 Hive 的 目标 可 能 是 冲 
突 的 ， 因 为 它们 都 期 望 提供 模式 或 者 元 数据 信息 。 不 过 Hive 和 Hive 元 数 
据 存 储 具 有 可 插 拔 的 设计 ， 因 此 可 以 支持 Avro 对 模式 的 推断 。 

Hive 中 的 Avro SerDe 是 由 LinkedIn 创 建 的 ， 其 提供 如 下 功能 。 

Q 从 Avro 模 式 中 推断 出 对 应 的 Hive 表 的 模式 。 


O 在 一 个 表 中 而 不 是 一 个 指定 的 模式 中 读 取 所 有 的 Avro 文 件 ， 这 
得 益 于 Avro 的 可 逆 兼 容 性 。 


O SCHEME asl. 

D 可 以 将 所 有 的 Avro 数据 类 型 转换 成 等 价 的 Hive 类 型 。 大 多 数 的 
类 型 可 以 精确 映射 ， 但 是 一 些 Avro 类 型 在 Hive 中 并 不 存在 的 话 ， 那 么 将 
由 Hive 通 过 Avro 自动 进行 转换 。 

©) 可 以 解析 压缩 的 Avro 文件 。 


© 显 式 地 通过 Union[T，nul] 语 句 将 Avro 中 可 以 表示 为 null 的 类 型 转 
化 成 T， 并 在 合适 的 情况 下 返回 null。 


D 可 以 将 任意 的 Hive 表 写成 Avro 文件 。 

















15.11.1 使 用 表 属 性 信息 定义 Avro Schema 


如 下 语句 通过 指定 AvroSerDe、AvroContainerInputFormat 和 | 
AvroContainerOutput Format 创 建 了 一 个 Arvo 表 。Arvo 具 有 其 自身 的 模式 
定义 语言 。 这 个 模式 定义 语言 可 以 使 用 属性 avro.schema.literal 以 字符 串 
的 形式 存储 在 表 的 属性 信息 中 。 模 式 中 指定 了 3 个 字段 :int 类 型 的 


number、string 类 型 的 firstmame 和 string 类 型 的 lastname。 








CREATE TABLE doctors 
ROW FORMAT 
SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' 


STORED AS 

INPUTFORMAT '‘org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat' 
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat' 
TBLPROPERTIES ('avro.schema.literal'='{ 


"namespace": "testing.hive.avro.serde", 
"name": "doctors", 
"type": "record", 
"fields": [ 
{ 
"name":"number", 
"type" : "int" i 
"doc":"Order of playing the role" 
F 
{ 


"name":"first_name", 
"type":"string", 
"doc":"first name of actor playing role" 


"name":"last_name", 
"type":"string", 
"doc":"last name of actor playing role" 





当 使 用 DESCRIBE 命 令 执 行 查看 时 ，Hive 就 会 显示 出 这 3 个 字段 的 
名 称 和 类 型 。 从 下 面 的 输出 信息 中 我 们 可 以 看 到 输出 信息 中 的 第 3 列 显 
示 字 上 段 是 来 自 反 序列 化 的 。 这 表明 是 SerDe 自 己 从 字段 中 返回 的 信息 ， 
而 不 是 存在 于 元 数据 存储 中 的 静态 数据 : 


hive> DESCRIBE doctors; 
number int from deserializer 











first_name string from deserializer 
last_name string from deserializer 





15.11.2 ”从 指定 URL 中 定义 Schema 

同样 可 以 以 URL 的 方式 提供 模式 。 可 以 是 HDFS 中 某 个 文件 的 路 径 
或 者 是 指 癌 HTTP 服 务 器 的 一 个 链接 。 通 和 常 可 以 在 表 属 性 中 设置 
avro.schema.url 的 值 ， 同 时 不 设置 avro.schema.literal 的 值 。 

模式 可 以 是 HDFS 中 的 一 个 文件 : 

模式 同样 可 以 存储 在 HTTP 服 务 器 上 


TBLPROPERTIES ('avro.schema.url'='http://site.com/path/to.schema' ) 











15.11.3 ”进化 的 模式 


随 着 时 间 的 推移 可 能 会 为 数据 集 增加 字段 或 者 从 数据 集中 减少 一 些 
字段 。Avro 的 设计 中 有 考虑 到 这 个 情况 。 进 化 的 模式 是 值 随 着 时 间 而 发 
生 改 变 的 模式 。Avro 人 允许 字段 是 null。 其 同样 允许 如 果 数据 文件 中 没有 
定义 字段 的 话 就 返回 指定 的 缺 省 值 。 


例如 ， 如 果 Avro 模 陈 发 生 了 改变 ， 并 增加 了 一 个 字段 ， 那 么 在 
default 字 段 中 会 提供 一 个 值 ， 如 果 没 有 找到 这 个 新 增 列 束 返 回 这 个 值 : 


"default":"fishfingers and custard" 





15.12 二进制 输出 


这 里 有 多 种 二 进 制 输出 。 我 们 已 经 看 过 文件 压缩 、sequence 文 件 
压缩 的 或 没有 压缩 的 ) 以 及 相关 的 文件 类 型 。 


AI, (RADE SAS Tit. Bilan, AP a nea CAB aR 
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为 这 些 工具 生成 合适 的 文件 ， 又 希望 通过 Hive 来 查询 这 些 文件 。 用 户 可 
能 也 希望 使 用 简洁 的 二 进 制 格式 存储 数值 而 不 是 使 用 像 “5034223，” 这 
样 的 需要 更 多 存储 空间 的 字符 串 来 进行 存储 。 一 个 常用 的 例子 就 是 查询 
tcpdump 命 令 的 输出 来 分 析 网 络 行为 。 


下 面 的 表 期 望 自 己 的 文件 是 文本 文件 格式 的 ， 但 是 其 可 以 将 查询 结 
果 按 二 进 制 数据 流 方式 进行 写 操作 : 


























CREATE TABLE binary_table (num1 INT, num2 INT) 
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
WITH SERDEPROPERTIES ('serialization.last.column.takes.rest'='true' ) 


STORED AS 
INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat ' 
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveBinaryOutputFormat'; 





下 面 是 个 SELECT TRANSFORM 查 询 的 例子 ， 其 从 表 src 中 读 取 二 进 
制 数 据 流 ， 然 后 直接 将 数据 流传 递 给 shell 命 令 cat， 最 后 将 结果 和 履 新 ， 写 
入 到 表 destination1 中 : 





INSERT OVERWRITE TABLE destination1 

SELECT TRANSFORM(* ) 

USING 'cat' AS mydata STRING 

ROW FORMAT SERDE '‘org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 


WITH SERDEPROPERTIES ('serialization.last.column.takes.rest'='true' ) 
RECORDREADER 'org.apache.hadoop.hive.ql.exec.BinaryRecordReader' 
FROM src; 





[1] 可 以 通过 如 下 链接 获取 到 DualInputFormat 的 源 
#4: https://github.com/edwardcapriolo/DualInputFormat。 


第 16 音 “Hive 的 Thrift 服 务 


Hive 具 有 一 个 可 选 的 组 件 叫 做 HiveServer 或 者 HiveThrift， 其 允许 通 
过 指定 端口 访问 Hive。Thrift 是 一 个 软件 框架 ， 其 用 于 跨 语言 的 服务 开 
发 。 关 于 Thrift， 可 以 通过 链接 http://thrift.apache.org/ 获得 更 详细 的 介 
绍 。Thrift 允 许 客户 端 使 用 包括 Java、C++、Ruby 和 其 他 很 多 种 语言 ， 通 
过 编程 的 方式 远程 访问 Hive。 











访问 Hive 的 最 常用 的 方式 就 是 通过 CLI 进 行 访问 。 不 过 ，CLI 的 设计 
使 其 不 便于 通过 编程 的 方式 进行 访问 。CLI 是 腾 客 户 端 ， 其 需要 本 地 具 
有 所 有 的 Hive 组 件 ， 包 括 配置 ， 同 时 还 需要 一 个 Hadoop 客 户 端 及 其 配 
置 。 同 时 ， 其 可 作为 HDFS 客 户 端 、MapReduce 客 户 端 以 及 JDBC 客 户 端 
《用 于 访问 元 数据 库 ) 进行 使 用 。 即 使 客户 端 安 装 是 成 功 的 ， 但 是 配置 
ie 网 络 访问 还 是 会 比较 困难 的 ， 特 别 是 对 于 不 同 网 段 或 跨 数 据 中 心 
JIR OL o 











16.1 启动 Thrift Server 
如 果 想 启用 HiveServer， 可 以 在 后 台 启 动 执 行 这 个 Hive 服 务 : 


$ cd $HIVE_HOME 
$ bin/hive --service hiveserver & 
Starting Hive Thrift Server 


检查 HiveServer 是 否 局 动 成 功 的 最 快捷 方法 就 是 使 用 netstat 命 令 查 看 
10，000 端 口 是 否 打开 并 监听 连接 ; 


$ netstat -nl | grep 10000 





tcp 0 © :::10000 ini LISTEN 


(为 排版 方便 ， 上 面 例子 中 去 除 掉 了 一 些 空格 。 ) 正如 前 面 所 提 到 
过 的 ，HiveServer 使 用 Thrift 提 供 服 务 。Thrift 提 供 了 一 个 接口 语言 。 通 
过 这 些 接口 ，Thrift 编 译 器 可 以 产生 创建 网 络 RPC 的 多 种 程序 语言 的 客 
户 端 的 代码 。 因 为 Hive 是 使 用 Java 编 写 的 ， 而 且 Java 的 季节 人 友 是 跨 平 台 
的 ，Thrift 服 务 的 客户 端 包 含 在 了 Hive 发 行 版 中 。 使 用 这 些 客户 端的 方 
式 就 是 在 IDE 中 开启 一 个 Java 工 程 ， 然 后 载 入 这 些 库 ， 或 者 通过 Maven 





16.2 ”配置 Groovy 使 用 HiveServer 


为 了 讲解 这 个 例子 ， 我 们 将 先 对 使 用 到 Groovy 进 行 介绍 。Groovy 是 
一 个 对 于 Java 虚 拟 机 来 说 敏捷 的 动态 的 程序 语言 。Groovy 是 进行 原型 设 
计 的 理想 选择 ， 因 为 其 很 好 地 兼容 Java， 并 提供 了 一 个 所 见 即 所 得 的 
CREPL) 的 编码 过 程 : 


$ curl -o http://dist.groovy.codehaus.org/distributions/groovy-binary- 1.8.6.zip 





$ unzip groovy-binary-1.8.6.zip 





下 载 好 压缩 包 后 ， 通 过 修改 groovy-starter.conf 文 件 ， 将 所 有 的 Hive 
JAR 文 件 加 入 到 Groovy 的 classpath 路 径 中 。 这 将 允许 Groovy 直 接 和 Hive 
进行 交互 而 无 需 人 为 地 在 每 个 会 话 中 载 入 相关 的 JAR 文 件 。 





# load required libraries 
load !{groovy.home}/lib/*.jar 


# load user specific libraries 
load !{user.home}/.groovy/lib/*.jar 


# tools.jar for ant tasks 
load ${tools. jar} 


load /home/edward/hadoop/hadoop-0.20.2_local/*.jar 
load /home/edward/hadoop/hadoop-0.20.2_local/lib/*.jar 
load /home/edward/hive-0.9.0/lib/*.jar 





Aa, 
| as 

ON 4 panne 
Ex wo 提示 


Groovy 有 一 个 @grab 标 注 ， 用 于 从 Maven 网 站 库 中 获取 到 JAR 
但 是 到 目前 为 止 Hive 的 一 些 打 包 问 题 使 得 这 种 方式 无 法 正 第 
ee 


Groovy 在 分 支 版 本 中 提供 了 bin/groovysh 这 个 shell 脚 本 。 这 个 脚本 
提供 了 一 个 REPL 用 于 交互 式 编 程 。Groovy 代 码 和 Java 代 码 类 似 ， 尺 管 
其 确实 有 其 他 如 终止 功能 的 形式 。 大 多 数 情 况 下 ， 用 户 可 以 像 写 Java 一 
样 编写 Groovy 代 码 。 








16.3 ”连接 到 HiveServer 


从 这 个 REPL 中 ， 导 入 Hive 和 Thrift 相 关 的 类 。 这 些 类 用 于 连接 到 
Hive， 及 创建 一 个 HiveClient 实 例 。HiveClient 含 有 用 户 和 Hive 交 互 所 需 
要 的 种 用 方法 : 





$ $HOME/groovy/groovy-1.8.0/bin/groovysh 

Groovy Shell (1.8.0, JVM: 1.6.0_23) 

Type 'help' or '\h' for help. 

groovy:000> import org.apache.hadoop.hive.service.*; 
groovy:000> import org.apache.thrift.protocol.*; 
groovy:000> import org.apache.thrift.transport.*; 


groovy:000> transport = new TSocket("localhost" , 10000); 
groovy:000> protocol = new TBinaryProtocol(transport); 
groovy:000> client = new HiveClient(protocol); 
groovy:000> transport.open(); 

groovy:000> client.execute("show tables"); 





16.4 ”获取 集群 状态 信息 


这 个 getClusterStatus 方 法 会 从 Hadoop 的 JobTracker 中 获取 信息 。 其 
可 用 于 获取 收集 监控 信息 也 可 用 于 寻找 空闲 时 间 来 提交 任务 : 


groovy:000> client.getClusterStatus() 
===> HiveClusterStatus(taskTrackers:50, mapTasks:52, reduceTasks:40 





maxMapTasks:480, maxReduceTasks:240, state:RUNNING) 


16.5 ”结果 集 模式 


在 执行 一 个 查询 后 ， 用 户 可 以 通过 getSchema() 方 法 获取 到 结果 集 的 
schema。 如 果 用 户 在 执行 一 个 查询 前 调用 这 个 方法 的 话 ， 那 么 其 将 返回 


一 个 null schema: 


groovy:000> client.getSchema() 

===> Schema(fieldSchemas:null, properties:null) 
groovy:000> client.execute("show tables"); 

===> null 


groovy:000> client.getSchema() 
===> Schema(fieldSchemas: [FieldSchema(name:tab_name, type:string, 
comment: from deserializer)], properties:null) 





16.6 ”获取 结 


当 执 行 查询 后 ， 用 户 可 以 通过 fetchOne() 方 法 获取 到 结果 集 。 并 不 
建议 通过 Thrift 接 口 来 获取 数据 量 大 的 结果 。 不 过 ， 其 确实 提供 了 几 种 
Ger are ROE reer errs erate a Aa eee 
ji: 


groovy:000> client.fetchOne( ) 
===> cookjar_small 


除了 一 次 获取 一 行 数 据 这 种 方式 外 ， 还 可 以 通过 fetchALLO 方 法 以 
字符 数组 的 形式 获取 整个 结果 集 : 











groovy:000> client.fetchAll() 





===> [macetest, missing final, one, time_to_serve, two] 


同时 还 提供 了 fetchN 方 法 ， 其 用 于 一 次 获取 N 行 结 


16.7 ”获取 执行 计划 


执行 过 一 个 查询 之 后 ， 束 可 以 使 用 getQueryPlan0) 方 法 来 获取 关于 这 
个 查询 的 状态 信息 。 信 息 内 容 包 括 计 数 器 的 信息 和 job 的 状态 信息 : 





groovy:000> client.execute("SELECT * FROM time_to_serve"); 

===> null 

groovy:000> client.getQueryPlan( ) 

===> QueryPlan(queries: [Query(queryId:hadoop_20120218180808_...-aedf367 ea2f3, 


queryType:null, queryAttributes: {queryString=SELECT * FROM time_to_serve}, 
queryCounters:null, stageGraph:Graph(nodeType:STAGE, roots:null, 
adjacencyList:null), stageList:null, done:true, started:true)], 
done:false, started: false) 





CERE STR BF) 


16.8 ”元 数据 存储 方法 


Hive 通 过 Thrift 提 供 Hive 元 数据 存储 的 服务 。 通 常 来 说 ， 用 户 应 该 
不 能 够 直接 调用 元 数据 存储 方法 来 直接 对 元 数据 进行 修改 ， 而 应 该 通过 
HiveQL 语 言 让 Hive 来 执行 这 样 的 操作 。 用 户 应 该 只 能 通过 利用 只 读 方 
法 来 获取 表 的 元 数据 信息 。 例 如 ， 可 以 使 用 get_partition_names (String, 
String，short) 方 法 来 确认 但 询 可 以 使 用 的 分 区 有 哪些 : 











groovy:000> client.get_partition_names("default", "fracture_act", (short)0) 
[ hit_date=20120218/mid=001839, hit_date=20120218/mid=001842, 


hit_date=20120218/mid=001846 ] 











重要 的 是 ， 要 记 住 ， 尽 管 元 数据 存储 API 的 变化 相对 是 比较 稳定 
的 ， 但 是 ， 包 括 它 们 的 签名 和 目的 ， 在 不 同 的 发 行 成 中 都 可 能 会 变化 。 
人 这 样 对 于 这 些 级 别 的 变化 就 会 
anf So 


表 检查 器 例子 


以 编程 的 方式 来 访问 元 数据 存储 的 能 力 提 供 了 部 普 过 程 中 的 监控 和 
执行 条 件 的 能 力 。 例 如 ， 可 以 通过 编写 一 个 检查 天 来 确定 是 否 所 有 的 表 
都 使 用 了 压缩 ， 或 者 所 有 以 zz 开头 的 表 保 存 时 间 不 能 超过 10 天 。 如 果 有 
必要 的 话 ， 这 些小 的 “Hive 小 程序 ”可 以 快速 地 编写 完成 并 可 以 远程 执 
行 。 


查找 非 外 部 表 的 表 


默认 情况 下 ， 管 理 表 会 在 数据 仓库 目录 下 存储 表 数 据 ， 这 个 目录 通 
常 默 认为 /user/hive/warehouse。 而 通常 情况 下 ， 外 部 表 不 会 使 用 这 个 日 
录 ， 但 是 也 并 非 束 不 能 使 用 这 个 目录 存储 外 部 表 数 据 。 通 过 增加 一 个 规 
则 ， 要 求 管 理 表 必须 存放 数据 到 数据 仓库 目录 下 将 会 有 利于 保持 环境 的 


清晰 。 


在 接 下 来 的 这 个 程序 中 ， 最 外 层 的 循环 对 get_all_databases0) 方 法 的 
返回 结果 列表 进行 迭代 。 而 内 层 的 循环 对 get_all_tables(database) 方 法 的 
结果 列表 进行 迭代 。 方 法 get_table(data base，table) 的 返回 结果 Table 对 
象 包 含 了 这 个 表 的 所 有 元 数据 信息 。 我 们 可 以 检查 表 的 存储 路 径 和 表 的 






































类 型 是 否 是 MANAGED_TABLE。 外 部 表 的 表 类 型 是 EXTERNAL。 最 终 
会 返回 一 组 “不 符合 规则 的 ” 表 名 ， 用 列表 bad 表 示 : 


public List<String> check(){ 
List<String> bad = new ArrayList<String>(); 
for (String database: client.get_all_databases() ){ 
for (String table: client.get_all_tables(database) ){ 
try { 
Table t = client.get_table(database, table); 
URI u = new URI(t.getSd().getLocation()); 
if (t.getTableType().equals("MANAGED_TABLE") && 
! u.getPath().contains("/user/hive/warehouse") ){ 
System.out.printin(t.getTableName() 
+ " is a non external table mounted inside /user/hive/ warehouse" ); 
bad.add(t.getTableName()); 


} catch (Exception ex){ 
System.err.printin("Had exception but will continue " +ex); 
} 
} 


return bad; 


} 





16.9 ”管理 HiveServer 


Hive CLI 会 在 本 地 创建 如 文件 名 为 .hivehistory 这 样 的 部 件 ， 以 及 会 
在 /mp 目录 和 hadoop.tmp.dir 目 录 下 创建 一 些 条 目 。 因 为 HiveServer 成 为 
job 开局 执行 的 地 方 ， 所 以 在 部 署 的 时 候 需 要 注意 几 个 注意 
项 。 


16.9.1 生产 环境 使 用 HiveServer 


除了 在 本 地 安 闭 完整 的 Hive 客 户 端 ， A petn eset 
提交 job。 不 过 如 果 在 生产 环境 下 使 用 HiveServer 的 话 ， 那 么 确实 还 需 
解决 一 些 额 外 的 问题 。 通 常客 户 ALANS DO UE MATT IA 
task HY) CE SE m ARH MR Ee MRA RIN BUT & PEP i 
的 话 ， 那 么 就 会 对 于 单个 HiveServer 造 成 太 大 的 压力 。 一 种 简单 的 解决 
办 法 就 是 使 用 TCP 负 载 均衡 或 者 通过 代理 的 方式 为 一 组 后 面 的 服务 器 进 
行 均衡 连接 。 

有 多 种 方式 来 进行 TCP 负 载 均衡 ， 用 户 需 要 咨询 下 网 络 管理 员 寻 求 
最 好 的 解决 方案 。 我 们 建议 通过 haproxy 工 具 来 对 众多 的 ThrfitServer 服 
务 器 均衡 连接 。 


首先 ， 需 要 列举 出 所 有 的 物理 ThriftServer 服 务 器 ， 并 记录 代理 对 应 
的 虚拟 服务 器 〈 见 表 16-1 和 表 16-2) 。 


表 16-1 物理 服务 器 配置 


短 域名 主机 名 和 端口 
hiveserver1.example.pvt:10000 

















hiveserver2.example.pvt:10000 


表 16-2 ”代理 配 
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主机 名 IP 地 址 





hiveprimary.example.pvt 10.10.10.100 


安装 ha-proxy 软 件 (也 就 是 HAP)。 对 于 不 同 的 操作 系统 和 分 发 版 








本 ， 安 装 步骤 可 能 有 所 不 同 。 下 面 的 例子 中 展示 的 是 RHEL/CENTOS 分 
发 版 的 安装 命令 : 


按照 前 面 的 清单 来 完成 配置 文件 : 


$ more /etc/haproxy/haproxy.cfg 

listen hiveprimary 10.10.10.100:10000 

balance leastconn 

mode tcp 

server hivethrift1 hiveservice1.example.pvt:10000 check 


server hivethrift2 hiveservice1.example.pvt:10000 check 





通过 系统 的 init 脚 本 来 启动 HAP。 一 旦 确认 可 以 正常 执行 后 ， 那 么 
就 可 以 使 用 chkconfig 命 令 将 其 加 入 到 默认 的 系统 月 动 过 程 中 : 


$ sudo /etc/init.d/haproxy start 
$ sudo chkconfig haproxy on 

Vee 
16.9.2 ”清理 


Hive 提 供 了 配置 变量 hive.start.cleanup.scratchdir， 默 认 值 是 false。 将 
这 个 属性 设置 为 true 的 话 ， 那 么 就 会 在 每 次 重启 HiveServer 服 务 时 清理 抒 
临时 目录 : 
<property> 


<name>hive.start.cleanup.scratchdir</name> 
<value>true</value> 


<description>To clean up the Hive scratchdir while 
starting the Hive server</description> 
</property> 





16.10 Hive ThriftMetastore 


典型 情况 下 ，Hive 会 话 会 直接 连接 到 一 个 JDBC 数 据 库 ， 这 个 数据 
库 用 作 元 数据 存储 数据 库 。Hive 提 供 了 一 个 可 选 的 组 件 名 为 
ThriftMetastore。 在 这 种 设置 下 ，Hive 客 户 端 会 连接 到 ThriftMetastore， 
P a KE BU TE EAS ig A HAE 
的 。 YF ABBE SR Java es ig 又 需要 获取 到 元 数据 存储 信息 时 才 会 使 用 
这 个 组 件 。 使 用 这 要 2 个 单独 的 配置 。 





16.10.1 ThriftMetastore 配置 


ThriftMetastore 应 该 和 实际 使 用 JDBC 的 元 数据 存储 进行 通信 ， 然 后 
再 通过 如 下 方法 启动 metastore: 
$ cd ~ 
$ bin/hive --service metastore & 


[1] 17096 
Starting Hive Metastore Server 


使 用 netstat 命 令 来 确认 元 数据 服务 局 动 并 正在 执行 


$ netstat -an | grep 9083 





tcp © 0 :::9083 ciara LISTEN 


16.10.2 ”客户 端 配置 
像 CLI 这 样 的 客户 端 需要 直接 和 元 数据 存储 通信 |: 





<property> 
<name>hive.metastore.local</name> 
<value>false</value> 
<description>controls whether to connect to remove metastore server 
or open a new metastore server in Hive Client JVM</description> 
</property> 


<property> 
<name>hive.metastore.uris</name> 
<value>thrift://metastore_server :9083</value> 
<description>controls whether to connect to remove metastore server 
or open a new metastore server in Hive Client JVM</description> 
</property> 








这 个 变化 对 于 用 户 来 说 是 透明 的 。 不 过 ， 对 于 Hadoop 安 全 来 说 这 里 
ee 而 且 需 要 以 用 户 的 吴 份 信息 来 执行 元 数据 存储 相关 
‘J BEE o 








第 17 章 ”存储 处 理 程 序 和 NoSQL 


存储 处 理 程 序 是 一 个 结合 InputFormat、OutputFormat、SerDe 和 Hive 
需要 使 用 的 特定 的 代码 ， 来 将 外 部 实体 作为 标准 的 Hive 表 进行 处 理 的 整 
体 。 这 样 无 论 表 是 以 文本 文件 的 方式 存储 在 Hadoop 中 ， 还 是 以 列 族 的 方 
式 存储 在 如 Apache HBase, Apache Cassandra 和 Amazon DynamoDB 这 样 
的 NoSQL 数 据 库 中 ， 用 户 都 可 以 无 颖 地 直接 执行 查询 ， 解 决 问题 。 存 储 
处 理 程序 不 仅 限 于 NoSQL 数 据 库 ， 可 以 为 多 种 类 别 的 数据 存储 设计 一 个 
数据 存储 处 理 程 序 。 











ee 
“a ds 
对 于 特定 的 存储 处 理 程 序 可 能 只 需 实现 其 中 的 某 些 功能 。 例 
如 ， ge nS 问 权限 或 实施 其 他 一 
些 限制 。 


存储 处 理 程序 提供 了 一 个 ETL 的 简化 系统 。 例 如 ， 一 个 Hive 查 询 可 
以 从 一 个 sequence file 存 储 格 式 的 表 中 选取 数据 ， 也 可 以 进行 输出 。 








17.1 Storage Handler Background 


Hadoop 中 有 一 个 名 为 nputFormat 的 抽象 接口 类 ， 其 可 以 将 来 自 不 同 
源 的 数据 格式 化 成 可 以 作为 job 输入 的 格式 。TextInputFormat 束 是 
InputFormat 的 一 个 具体 实现 。 其 会 提供 给 Hadoop 关 于 如 何 将 给 定 文件 路 
径 下 的 文件 分 割 成 多 个 划分 ， 然 后 分 发 给 多 个 task 进 行 处 理 的 信息 ， 而 
且 还 提供 了 一 个 RecordReader 接 口 ， 该 接口 提供 了 用 于 从 每 个 划分 中 读 
取 数 据 的 方法 。 


Hadoop 同 是 还 提供 了 一 个 名 为 OutputFormat 的 抽象 接口 ， 其 会 获取 
到 一 个 job 的 输出 ， 然 后 将 这 个 输出 输入 到 一 个 实体 中 。 
TextOutputFormat 就 是 OutputFormat 的 一 个 具体 实现 。 其 可 以 持续 地 将 结 
果 输 入 到 一 个 存储 在 HDFS 或 本 地 文件 系统 中 的 文件 中 。 


在 Hadoop 中 输入 和 输出 是 物理 文件 的 情况 很 正常 ， 不 过 InputFormat 
和 OutputFormat 抽 象 接口 可 被 用 于 从 其 他 数据 源 (包括 关系 型 数据 库 、 
NoSQL 存 储 〈 如 Casssandra) 或 HBase， 以 及 其 他 任何 可 通过 
InputFormat 或 者 OutputFormat 进 行 设计 实现 的 存储 ) 中 读 取 和 存放 数 
据 。 





在 “HiveQL” 那 一 章 中 ， 我 们 展示 了 使 用 Java 代 码 编写 的 Word Count 
的 例子 ， 然 后 展示 了 在 Hive 中 等 价 的 实现 方式 。Hive 中 的 抽象 如 表 、 类 
型 、 行 格式 以 及 其 他 元 数据 都 用 于 Hive 理 解 源 数据 。 一 旦 Hive 了 解 了 源 
oe 言 息 ， 那 么 查询 引擎 就 可 以 使 用 熟悉 的 HiveQL 操 作 符 来 处 
理 数 据 。 


很 多 的 NoSQL 数 据 库 都 使 用 传统 适配器 实现 了 Hive 连 接 堪 。 


17.2 HiveStorageHandler 


HiveStorageHandler 是 Hive 用 于 连接 如 HBase、Cassandra 等 类 似 的 
NoSQL 存 储 的 主要 接口 。 检 查 下 接口 可 以 发 现 需要 定义 一 个 定制 的 
InputFormat、 一 个 OutputFormat 以 及 SerDe。 存 储 处 理 程序 负责 从 底层 存 
储 子 系统 中 读 取 或 写 入 数据 。 这 就 转变 成 通过 写 SELECT 查 询 读 取 数 据 
系统 中 的 数据 ， 以 及 通过 如 reports 这 样 的 操作 将 数据 写 入 到 数据 系统 。 


当 在 NoSQL 数 据 库 之 上 执行 Hive 碍 询 时 ，NoSQL 系 统 的 资源 消耗 、 
执行 效率 要 比 常 规 的 基于 HDFS 的 Hive 和 MapReduce job 要 慢 。 其 中 一 部 
分 原因 源 于 服务 器 的 Socket 连 接 资源 消耗 和 对 底层 多 个 文件 的 合并 过 
程 ， 而 从 HDFS 中 典型 的 访问 是 完全 顺序 JO， 顺 序 IMO 在 现代 磁盘 上 是 
非常 快 的 。 


在 一 个 系统 整体 架构 中 将 NoSQL 数 据 库 和 Hadoop 结 合 使 用 的 一 个 
通用 技术 束 是 使 用 NoSQL 数 据 库 集 群 来 进行 实时 处 理工 作 ， 而 利用 
Hadoop 集 群 进行 非 实 时 面向 批 处 理 的 工作 。 如 果 NoSQL 系 统 是 主 数据 
存储 ， 而 其 数据 又 需要 通过 Hadoop 的 批 处 理 job 进 行 查询 的 话 ， 批 量 导 
出 是 一 个 将 NoSQL 数 据 导 入 到 HDFS 文 件 中 的 高 效 的 方式 。 一 旦 HDFS 
中 的 文件 通过 导出 生成 后 ， 束 可 以 以 最 大 效率 执行 批 处 理 Hadoop job. 








17.3 HBase 
如 下 例子 展示 了 如 何 使 用 HiveQL 创 建 一 个 指向 HBase 表 的 Hive 表 : 





CREATE TABLE hbase_stocks(key INT, name STRING, price FLOAT) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler ' 


WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,stock:val") 
TBLPROPERTIES ("hbase.table.name" = "stocks"); 





如 果 想 创建 一 个 指向 一 个 已 经 存在 的 HBase 表 的 Hive 表 的 话 ， 那 么 
就 必须 使 用 CREATE EXTERNAL TABLE 这 个 HiveQL 语 句 : 


CREATE EXTERNAL TABLE hbase_stocks(key INT, name STRING, price FLOAT) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler ' 


WITH SERDEPROPERTIES ("hbase.columns.mapping" = "cfi:val") 
TBLPROPERTIES("hbase.table.name" = "stocks"); 





对 于 一 个 指定 的 Hive 碍 询 ， 不 需要 扫描 整个 HBase 表 ， 通 过 过 涯 下 
推 裁 勇 将 会 得 到 返回 给 Hive 的 行 数 据 。 


可 以 进行 谓词 下 推 的 类 型 如 下 。 

Q key < 20. 

@) key = 20. 

@) key < 20, 而 有 key > 10. 

其 他 的 复杂 类 型 的 谓词 都 会 忽略 掉 而 不 会 启用 下 推 功 能 。 

下 面 是 一 个 简单 的 例子 ， 其 先 创 建 了 一 个 简单 的 表 ， 然 后 对 这 个 表 


进行 的 查询 语句 将 会 使 用 到 过 滤 条 件 下 推 的 功能 。 需 要 注意 的 是 下 推 的 
总 是 HBase 的 键 ， 而 非 列 组 中 的 列 值 。 








CREATE TABLE hbase_pushdown(key int, value string) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler ' 
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf:string"); 





SELECT * FROM hbase_pushdown WHERE key = 90; 


如 下 这 个 得 询 不 会 得 询 下 推 ， 因 为 其 过 滤 条 件 中 包含 有 OR 操 作 


ws 
R 


SELECT * FROM hbase_pushdown 
WHERE key <= '80' OR key >= '100'; 


和 HBase 结 合 使 用 的 Hive 支 持 HBase 表 和 HBase 表 的 连接 操作 ， 也 支 
持 HBase 表 和 非 HBase 表 的 连接 操作 。 


默认 情况 下 ， 下 推 优化 是 开启 的 ， 不 过 可 以 通过 如 下 命令 将 此 功能 
关闭 : 


set hive.optimize.ppd.storage=false; 


当 将 Hive 中 的 数据 导入 到 HBase 中 时 ， 需 要 注意 ，HBase 要 求 键 是 
排 重 后 唯一 的 ， 而 Hive 并 无 此 要 求 。 


下 面 是 一 些 Hive 和 HBase 列 映射 需要 注意 的 问题 。 
O 没有 访问 HBase 行 时 间 惟 的 方式 ， 只 会 返回 最 新 版 本 的 行 。 
©) HBase 的 键 必 须 进 行 显 式 定义 。 





17.4 Cassandra 


Cassandra 已 经 采用 和 HBase 中 类 似 的 实现 方式 实现 了 
HiveStorageHandler 接 口 。 这 种 实现 方式 最 先是 在 Brisk 项 目 中 的 Datastax 
中 使 用 的 。 


这 个 模式 非常 简单 ， 一 个 Cassandra 列 族 和 一 个 Hive 表 映射 起 来 。 同 
样 地 ，Cassandra 列 名 和 Hive 列 名 直接 映射 起 来 。 








17.4.1 静态 列 映射 (Static Column Mapping) 


当 用 户 指 定 了 Cassandra 中 的 哪些 列 期 望 和 Hive 列 进行 映射 时 使 用 静 
态 列 存储 非常 有 用 。 下 面 的 例子 中 ， 首 先 创建 了 一 个 Hive 外 部 表 ， 其 和 
一 个 已 存在 的 Cassandra 键 空间 及 列 族 相映 射 : 


CREATE EXTERNAL TABLE Weblog(useragent string, ipaddress string, timestamp string) 
STORED BY 'org.apache.hadoop.hive.cassandra.CassandraStorageHandler ' 
WITH SERDEPROPERTIES ( 


"cassandra.columns.mapping" = ":key,user_agent, ip_address, time_stamp" ) 
TBLPROPERTIES ( 

"cCassandra.range.size" = "200", 

"cassandra.slice.predicate.size" = "150" ); 





17.4.2 为 动态 列 转 置 列 映射 


某 些 Cassandra 使 用 场景 会 用 到 动态 列 。 这 种 使 用 场景 是 东 个 指 定 列 
组 没有 固定 的 、 已 命名 的 列 ， 而 是 由 列 的 行 键 代表 某 片 数据 。 这 常用 于 
时 间 序 列 数 据 ， 其 中 列 名 代表 时 间 ， 而 列 值 代表 那个 时 间 的 值 。 如 果 列 
名 是 已 知 的 话 ， 或 者 用 户 需 要 检索 所 有 值 时 ， 这 也 是 很 有 用 的 。 














CREATE EXTERNAL TABLE Weblog(useragent string, ipaddress string, timestamp string) 
STORED BY 'org.apache.hadoop.hive.cassandra.CassandraStorageHandler ' 


WITH SERDEPROPERTIES ( 
"cassandra.columns.mapping" = ":key,:column, :value"); 





17.4.3 Cassandra SerDe Properties 


表 17-1 中 所 介绍 的 属性 可 以 在 WITH SERDEPROPERTIES 语 句 中 进 
行 定 义 。 





表 17-1 Cassandra SerDe 存 储 控制 器 属性 


cassandra.cloumns.mapping 将 Hive 的 列 和 Cassandra 的 列 映射 起 来 


cassandra.cf.name Cassandra 中 的 列 族 名 





cassandra.host 要 连接 的 Cassandra 节 点 IP 








cassandra.port Cassandra RPC 端 口 ， 默 认 是 9160 


cassandra.partitioner 分 区 器 ， 默 认 是 RandomPartitioner 





表 17-2 中 所 介绍 的 属性 可 以 在 TBLPROPERTIES 语 句 中 进行 定义 。 


表 17-2 Cassandra 表 属性 

















cassandra.ks.name Cassandra 键 空 间 名 称 








cassandra.ks.repfactor Cassandra JURAT, 3 








cassandra.ks.strategy 见 余 策略 ， 默 认 是 SimpleStrategy 


cassandra.input.split.size MapReduce 划 分 大 小 ， 默 认 是 64*1024 








cassandra.range.size MapReduce 批 处 理 范围 大 小 ， 默 认 是 1000 





cassandra.slice.predicate.size MapReduce 片 推测 大 小 ， 默 认 是 1000 





17.5 DynamoDB 


Amazon 的 Dynamo 是 最 先 推 出 的 NoSQL 数 据 库 之 一 。Dynamo 的 设 
计 影 响 了 很 多 其 他 的 数据 库 ， 包 括 Cassandra 和 HBase。 尽 管 其 有 很 大 的 
影响 力 ， 但 是 Dynamo 目 前 还 仅 限 制 在 Amazon 内 部 进行 使 用 。Amazon 
发 布 了 男 一 球 受 Dynamo 有 影响 的 数据 库 ， 这 个 数据 库 被 称 为 
DynamoDB. 


DynamoDB 属 于 键 - 值 数 据 库 中 的 一 种 。 在 DynamoDB 中 ， 表 就 是 一 
组 元 又 Citem) 的 集合 ， 而 且 其 中 必需 要 有 一 个 主键 。 一 个 元 素 
(item) 包含 有 一 个 键 和 任意 数量 的 属性 值 。 不 同 的 元 素 Citem) 可 以 
具有 不 同 的 属性 集 。 


用 户 可 以 通过 Hive 人 查询 DynamoDB 中 的 表 ， 而 且 用 户 可 以 迁移 出 数 
据 或 者 导入 数据 到 S3 中 。 下 面 是 一 个 关于 股票 的 Hive 表 的 例子 ， 这 个 表 
底层 其 实 是 一 张 DynamoDB 表 : 








CREATE EXTERNAL TABLE dynamo_stocks( 
key INT, symbol STRING, 


ymd STRING, price FLOAT) 
STORED BY 
‘org. apache.hadoop.hive.dynamodb.DynamoDBStorageHandler' 


TBLPROPERTIES ( 
"dynamodb.table.name" = "Stocks", 
"dynamodb.column.mapping" = 

"key: Key, symbol:Symbol, 
ymd: YMD, price_close:Close"); 








关于 DynamoDB， 可 以 通过 如 下 链接 获取 更 多 信 


Æ: http://aws.amazon.com/dynamodb/。 
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在 了 解 Hive 的 安全 机 制 之 前 ， 我 们 需要 首先 清楚 Hadoop 的 安全 机 制 
以 及 Hadoop 的 历史 。Hadoop 起 源 于 Apache Nutch 的 子 项 目 。 在 那个 时 期 
以 及 其 整个 早期 原型 时 期 ， 功 能 性 需求 比 安全 性 需求 优先 级 要 高 。 分 布 
式 系统 的 安全 问题 要 比 正常 情况 下 更 加 复杂 ， 因 为 不 同 机 器 上 的 多 个 组 
件 需要 相互 进行 通信 。 


在 如 v0.20.205 发 行 版 之 前 的 非 安全 Hadoop 版 本 中 ， 是 通过 调用 本 地 
的 whoami 脚 本 获取 用 户 名 的 。 用 户 可 以 自由 地 通过 设置 FSShell 命 令 
(文件 系统 命令 ) 中 的 hadoop.job.ugi 属 性 来 改变 这 个 参数 值 。Map 或 者 
Reduce 任 务 (task) 都 以 相同 的 系统 用 户 〈 通 常用 户 名 是 hadoop 或 者 
mapred) 在 Task-Tracker 节 点 上 执行 任务 。 同 样 地 ，Hadoop 组 件 通常 要 
监听 数值 比较 大 的 端口 。 通 营 情 况 下 ， 都 是 以 非特 权 用 户 来 执行 的 〈 例 
如 ， 非 root 用 户 的 其 他 用 户 ) o 


最 近 对 于 Hadoop 的 安全 引入 了 多 个 变化 ， 其 中 主要 是 对 于 Kerberos 
安全 认证 的 支持 ， 还 包含 其 他 一 些 问 题 的 修复 。Kerberos 人 允许 客户 端 和 
服务 端 相 互 认证 。 客 户 端的 每 次 请 求 中 都 会 带 有 凭证 〈ticket) 信息 。 
在 TaskTracker 上 执行 的 任务 (task) 都 是 由 执行 任务 Gob) 的 用 户 来 执 
行 的 。 用 户 无 法 通过 设置 hadoop.job.ugi 属 性 的 值 来 模拟 其 他 人 来 执行 任 
目的 ， 所 有 的 Hadoop 组 件 从 头 到 尾 都 要 使 用 Kerberos 
安全 认证 。 


Hive 在 Hadooop 引 入 Kerberos 文 持 之 前 束 已 经 存在 了 ， 而 且 Hive 目 

前 还 没有 完全 和 Hadoop 的 安全 改变 相 融 合 。 例 如 ，Hive 元 数据 存储 连接 
可 能 是 直接 连接 到 一 个 JDBC 数 据 库 或 者 是 通过 Thrift 进 行 连接 ， 这 些 都 
要 使 用 用 户 的 吴 份 进行 各 种 操作 。 像 HiveService 这 样 的 基于 Thrift 的 组 
件 还 是 要 冒充 他 人 来 执行 。Hadoop 的 文件 用 户 权 限 模型 (也 就 是 对 于 一 
个 文件 分 为 用 户 、 组 和 其 他 3 层 权 限 ) 和 很 多 其 他 数据 库 中 用 户 权 限 模 
型 具有 很 大 的 差异 ， 数 据 库 中 通常 是 使 用 对 表 行 或 者 字段 级 别 进行 授权 
和 权限 回收 操作 来 进行 权限 控制 的 。 


本 章 试 图 强调 在 安全 和 非 安 全 Hadoop 版 本 中 Hive 的 组 件 操 作 的 不 同 
点 。 关 于 Hadoop 的 安全 特性 的 详细 介绍 ， 请 参考 Tom White (O’Reilly) 






































所 车 的 《Hadoop 编 程 指南 》 一 书 。 


| 


S us 

Hadoop 中 的 安全 支持 仍然 是 相对 比较 新 且 处 于 进化 中 的 。Hive 
中 有 些 部 分 还 是 无 法 和 Hadoop 的 安全 支持 相 融合 的 。 本 节 所 讨论 的 
内 容 总 结 了 当前 Hive 安 全 的 状况 ， 但 这 并 非 是 最 终 状况 。 


关于 Hive 安 全 的 更 多 内 容 ， 可 以 参考 Hive 的 安全 wiki 页 
面 : https://cwiki.apache.org/confluence/display/Hive/Security。 同 时 ， 和 
本 书 中 其 他 章节 不 同 的 是 ， 我 们 会 要 求 用 户 查 看 更 多 相关 的 JIRA 获 取 更 
多 信息 。 





18.1 和 Hadoop 安 全 功能 相 结合 


Hive v0.7.0 版 本 增加 了 和 Hadoop 安 全 功能 的 结合 赔 ， 这 意味 着 ， 例 
如 ， 当 Hive 提 交 任 务 到 安全 集群 的 JobTracker 上 时 ， 其 将 使 用 合适 的 认 
证 处 理 过 程 。 用 户 权 限 可 以 被 授予 也 可 以 被 回收 ， 这 个 下 面 我 们 将 进行 


讨论 。 


不 过 在 Thrift 和 其 他 组 件 中 仍 存 在 着 几 个 已 知 的 安全 漏洞 ， 这 些 在 
Hive 的 安全 wiki 页 面 上 有 列举 出 来 。 


18.2 ”使 用 Hive 进 行 验证 


如 果 文 件 和 文件 夹 是 多 个 用 户 共 同 拥 有 的 话 ， 那 么 文件 的 权限 设置 
就 变 的 非常 重要 。HDFS 中 文件 目录 权限 和 Unix 中 的 模式 非常 相似 ， 都 
包含 有 3 层 : 用 户 、 组 和 其 他 。 同 时 具有 3 种 权限 可 读 、 可 写 和 可 执 
行 。Hive 中 有 一 个 配置 变量 hive.files.umask.value 来 定义 对 于 新 创建 的 文 
件 设置 的 默认 权限 的 umask 值 ， 也 就 是 掩 码 字 节 数 。 











<property> 
<name>hive.files.umask.value</name> 


<value>0002</value> 
<description>The dfs.umask value for the hive created folders</description> 
</property> 





同时 ， 当 属性 hive.metastore.authorization.storage.checks 的 值 为 true 
时 ， 如 果 用 户 没 有 权限 删除 表 底 层 的 文件 ，Hive 束 会 阻止 用 户 来 删除 这 
样 的 表 。 这 个 参数 的 默认 值 是 false， 而 其 应 该 是 设置 为 true 的 : 


<property> 
<name>hive.metastore.authorization.storage.checks</name> 
<value>true</value> 
<description>Should the metastore do authorization checks against 
the underlying storage for operations like drop-partition (disallow 
the drop-partition if the user in question doesn't have permissions 
to delete the corresponding directory on the storage) .</description> 
</property> 





hive.metastore.execute.setugii< 4. /Ytrue. 


<property> 
<name>hive.metastore.execute.setugi</name> 
<value>false</value> 
<description>In unsecure mode, setting this property to true will 
cause the metastore to execute DFS operations using the client's 


reported user and group permissions. Note that this property must 
be set on both the client and server sides. Further note that its 
best effort. If client sets it to true and server sets it to false, 
client setting will be ignored.</description> 

</property> 





可 以 在 如 下 JIRA 中 获取 更 详细 的 信 
息 : https://issues.apache.org/jira/browse/HIVE-842, “Hive 中 安全 任务 架 
构 ” s 


18.3 ”Hive 中 的 权限 管理 


Hive v0.7.0 版 本 中 同时 增加 了 通过 HiveQL 进 行 授权 设置 的 功能 品 。 
授权 模块 是 不 开启 的 ， 需 要 将 如 下 的 属性 设置 为 tue， 才 
能 开启 授权 : 


<property> 

<name>hive.security.authorization.enabled</name> 

<value>true</value> 

<description>Enable or disable the hive client authorization</description> 
</property> 
<property> 


<name>hive.security.authorization.createtable.owner.grants</name> 
<value>ALL</value> 
<description>The privileges automatically granted to the owner whenever 
a table gets created.An example like "select,drop" will grant select 
and drop privilege to the owner of the table</description> 
</property> 





默认 情况 下 ，hive.security.authorization.createtable.owner.grants 的 值 
是 null， 这 使 得 用 户 无 法 访问 自己 的 表 。 因 此 ， 我 们 也 要 给 予 表 创建 者 
对 应 的 权限 才能 访问 自己 创建 的 表 。 


当前 用 户 是 可 以 通过 set 命 令 来 将 相关 的 属性 设置 为 false 来 天 闭 
权限 认证 的 。 


18.3.1 用 户 、 组 和 角色 


可 以 对 用 户 (user) 、 组 (group) REHE Cole) 授予 权限 或 者 
回收 权限 。 我 们 将 逐步 演示 对 这 些 实体 的 授权 过 程 。 


hive> set hive.security.authorization.enabled=true; 


hive> CREATE TABLE authorization_test (key int, value string); 


Authorization failed:No privilege 'Create' found for outputs { database:default}. 
Use show grant to get more details. 





我 们 已 经 看 到 ， 我 们 使 用 的 用 户 没 有 在 default 数 据 库 下 创建 表 的 权 
限 。 我 们 可 以 对 多 个 实体 进行 授权 。 第 一 个 实体 就 是 用 户 (user) ， 








Hive 中 的 用 户 就 是 用 户 的 系统 用 户 名 。 我 们 可 以 确定 其 名 称 ， 并 按照 如 
下 语句 将 在 default 数 据 库 下 的 创建 表 (create〉 权 限 授予 这 个 用 户 : 


hive> set system:user.name; 
system:user .name=edward 


hive> GRANT CREATE ON DATABASE default TO USER edward; 


hive> CREATE TABLE authorization_test (key INT, value STRING); 











我 们 可 以 通过 SHOW GRANT 命令 查看 授权 结果 情况 : 


hive> SHOW GRANT USER edward ON DATABASE default; 


database default 

principalName edward 

principalType USER 

privilege Create 

grantTime Mon Mar 19 09:18:10 EDT 2012 
grantor edward 


在 用 户 很 多 同时 表 也 很 多 的 情况 下 ， 对 于 用 户 级 别 的 权限 授予 将 会 
给 运 维 上 带 来 高 成 本 。 一 个 更 好 的 选择 就 是 基于 组 〈group) 级 别 的 权 
限 授予 。 Hive 中 组 和 用 户 的 主 POSIX 组 是 等 价 的 : 








hive> CREATE TABLE authorization_test_group(a int,b int); 


hive> SELECT * FROM authorization_test_group; 

Authorization failed:No privilege 'Select' found for inputs 

{ database:default, table:authorization_test_group, columnName:a}. 
Use show grant to get more details. 


hive> GRANT SELECT on table authorization_test_group to group edward; 
hive> SELECT * FROM authorization_test_group; 


OK 
Time taken: 0.119 seconds 





WRH Cuser) 和 组 (group) 仍 不 够 灵活 的 话 ， 那 么 可 以 使 用 角 
色 (role) 。 用 户 可 以 放置 在 角色 中 同时 可 以 为 角色 进行 授权 。 角 色 是 
非常 灵活 的 ， 因 为 和 组 不 一 样 ， 组 是 由 系统 外 部 进行 控制 的 ， 而 角色 是 
由 Hive 内 部 进行 控制 的 : 





hive> CREATE TABLE authentication_test_role (a int , b int); 


hive> SELECT * FROM authentication_test_role; 

Authorization failed:No privilege 'Select' found for inputs 

{ database:default, table:authentication_test_role, columnName:a}. 
Use show grant to get more details. 


hive> CREATE ROLE users_who_can_select_authentication_test_role; 





hive> GRANT ROLE users_who_can_select_authentication_test_role TO USER edward; 





hive> GRANT SELECT ON TABLE authentication_test_role 
> TO ROLE users_who_can_select_authentication_test_role; 





hive> SELECT * FROM authentication_test_role; 
OK 
Time taken: 0.103 seconds 





18.3.2 Grant 和 Revoke 权 限 


表 18-1 列举 出 了 可 以 配置 的 权限 。 
表 18-1 权限 


有 修改 表 结 构 的 权限 


建 表 的 权限 

















开局 并 发 后 ， 锁 定 和 解锁 定 表 的 权限 
向 表 或 者 分 区 中 插入 或 加 载 数据 的 权限 














下 和 面 这 个 例子 演示 了 如 何 使 用 CREATE 权 限 : 


hive> SET hive.security.authorization.enabled=true; 
hive> CREATE DATABASE edsstuff; 


hive> USE edsstuff; 


hive> CREATE TABLE a (id INT); 


Authorization failed:No privilege 'Create' found for outputs 
{ database:edsstuff}. Use show grant to get more details. 


hive> GRANT CREATE ON DATABASE edsstuff TO USER edward; 


hive> CREATE TABLE a (id INT); 





hive> CREATE EXTERNAL TABLE ab (id INT); 


同样 地 ， 我 们 可 以 通过 如 下 命名 授予 ALTER 权 限 : 


hive> ALTER TABLE a REPLACE COLUMNS (a int , b int); 

Authorization failed:No privilege 'Alter' found for inputs 

{ database:edsstuff, table:a}. Use show grant to get more details. 
hive> GRANT ALTER ON TABLE a TO USER edward; 


hive> ALTER TABLE a REPLACE COLUMNS (a int , b int); 





需要 注意 的 是 ， 对 于 如 下 这 种 为 分 区 表 新 增 分 区 的 操作 是 不 需 
ALTER 权 限 的 : 


hive> ALTER TABLE a_part_table ADD PARTITION (b=5); 


往 表 中 加 载 数据 的 话 需 要 使 用 UPDATE 权 限 : 


hive> LOAD DATA INPATH '${env:HIVE_HOME}/NOTICE' 
> INTO TABLE a_part_table PARTITION (b=5); 
Authorization failed:No privilege 'Update' found for outputs 
{ database:edsstuff, table:a_part_table}. Use show grant to get more details. 


hive> GRANT UPDATE ON TABLE a_part_table TO USER edward; 


hive> LOAD DATA INPATH '${env:HIVE_HOME}/NOTICE' 
> INTO TABLE a_part_table PARTITION (b=5); 
Loading data to table edsstuff.a_part_table partition (b=5) 





删除 表 或 者 分 区 需要 DROP 权 限 : 


hive> ALTER TABLE a_part_table DROP PARTITION (b=5); 


Authorization failed:No privilege 'Drop' found for inputs 
{ database:edsstuff, table:a_part_table}. Use show grant to get more details. 


从 表 或 者 分 区 中 和 查询 数据 的 话 需要 SELECT 权限 : 








hive> SELECT id FROM a_part_table; 

Authorization failed:No privilege 'Select' found for inputs 

{ database:edsstuff, table:a_part_table, columnName:id}. Use show 
grant to get more details. 


hive> GRANT SELECT ON TABLE a_part_table TO USER edward; 


hive> SELECT id FROM a_part_table; 





目前 GRANT SELECT(COLUMN) 这 个 操作 语法 是 通过 的 ， 不 
过 实际 不 会 执行 。 


用 户 同样 可 以 通过 如 下 命令 授予 全 部 的 权限 : 





18.4 分 区 级 别 的 权限 


Hive 中 分 区 表 非 常常 见 。 默 认 情 况 下 ， 是 在 表 级 别 授 予 权 限 的 。 不 
过 ， 同 样 可 以 在 分 区 级 别 进行 权限 授予 。 为 达到 这 个 目标 ， 只 需要 将 表 
属性 PARTITION LEVEL _PRIVILEGE 设 置 为 TRUE 即 可 : 





hive> CREATE TABLE authorize_part (key INT, value STRING) 
> PARTITIONED BY (ds STRING); 


hive> ALTER TABLE authorization_part 

> SET TBLPROPERTIES ("PARTITION_LEVEL_PRIVILEGE"="TRUE") ; 
Authorization failed:No privilege 'Alter' found for inputs 
{database:default, table:authorization_part}. 
Use show grant to get more details. 
hive> GRANT ALTER ON table authorization_part to user edward; 


hive> ALTER TABLE authorization_part 
> SET TBLPROPERTIES ("PARTITION_LEVEL_PRIVILEGE"="TRUE") ; 


hive> GRANT SELECT ON TABLE authorization_part TO USER edward; 
hive> ALTER TABLE authorization_part ADD PARTITION (ds='3'); 
hive> ALTER TABLE authorization_part ADD PARTITION (ds='4'); 


hive> SELECT * FROM authorization_part WHERE ds='3'; 


hive> REVOKE SELECT ON TABLE authorization_part partition (ds='3') FROM USER edward; 


hive> SELECT * FROM authorization_part WHERE ds='3'; 

Authorization failed:No privilege 'Select' found for inputs 

{ database:default, table:authorization_part, partitionName:ds=3, columnName:key}. 
Use show grant to get more details. 


hive> SELECT * FROM authorization_part WHERE ds='4'; 
OK 
Time taken: 0.146 seconds 





18.5 上 自动 授权 


用 户 经 疝 会 期 望 创建 表 后 不 再 执行 烦人 的 授权 命令 ， 残 可 以 具有 相 
关 的 权限 ， 而 直接 去 执行 后 续 的 查询 ， 等 等 。 早期， 用户 可 能 需要 具有 
ALL 权 限 才 可 以 ， 不 过 现在 可 以 为 默认 情况 指定 更 细节 的 权限 。 








属性 hive.security.authorization.createtable.owner.grants 中 可 以 定义 为 
创建 表 的 用 户 自动 授予 对 这 张 表 的 指定 的 权限 。 在 下 面 的 这 个 例子 中 ， 
A ea 限 ， 而 是 为 用 户 自动 授予 对 其 所 创建 的 表 的 SELECT 
和 DROP 权 限 : 


<property> 
<name>hive.security.authorization.createtable.owner.grants</name> 
<value>select, drop</value> 

</property> 











类 似 地 ， 可 以 在 创建 表 时 自动 授予 指定 用 户 指定 的 权限 。 属 性 
hive.security.authorization. createtable.user.grants 就 控制 着 这 个 行为 。 下 面 
这 个 例子 展示 了 Hive 管 理 员 账号 admin1 和 用 户 edward 默 认 授 予 所 有 表 的 
读 权 限 ， 而 userl1 只 有 创建 表 的 权限 。 


<property> 
<name>hive.security.authorization.createtable.user.grants</name> 
<value>admini, edward: select; useri:create</value> 





</property> 





对 于 组 (group) 和 角色 Cole) 同样 具有 类 似 的 属性 来 控制 和 目 动 授予 
的 权限 。 对 于 组 ， 该 属性 名 为 
hive.security.authorization.createtable.group.grants; 对 于 角色 ， 这 个 属性 
是 hive.security.authorization.createtable.role.grants。 这 些 属性 的 值 的 形式 
和 前 面 介绍 的 是 相同 的 。 





[1] 请 参考 如 下 链接 : https://issues.apache.org/jira/browse/HIVE-1264。 


[2] 请 参考 https://issues.apache.org/jira/browse/HIVE-78,“Hive" 中 的 权限 管 
理 架 构 ? 以 及 如 下 链接 中 对 于 这 个 功能 的 描 
述 : https://cwiki.apache.org/Hive/languagemanual-auth.html . 


第 19 章 Fh 


尽管 HiveQL 是 一 种 SQL 方言 ， 但 是 Hive 缺 少 通 稍 在 update 和 insert 类 
型 的 查询 中 使 用 到 的 对 于 列 、 行 或 者 查询 级 别 的 锁 文 持 。Hadoop 中 的 文 
件 通 常 是 一 次 写 入 的 《尽管 Hadoop 确 实 支 持 有 限 的 文件 追加 功能 ) 。 
为 这 个 一 次 写 入 的 天 性 和 MapReduce 的 streaming 类 型 ， 访 问 细 粒 度 锁 是 
不 必要 的 。 


不 过 ， 既 然 Hadoop 和 Hive 是 多 用 户 系统 ， 那 么 在 一 些 情况 下 ， 锁 和 
协调 会 是 非常 有 用 的 。 例 如 ， 如 果 一 个 用 户 期 望 锁定 一 个 表 ， 因 为 使 用 
INSERT OVERWRITE 这 样 的 查询 就 可 以 修改 表 的 内 容 ， 而 同时 第 2 个 用 
人 

MAY 2G 


Hive 可 以 被 认为 是 一 个 胖 客户 端 ， 因 为 在 某 种 意义 上 每 个 Hive 
CLI、Thrift server 或 者 Web 接 口 实例 都 不 是 完全 独立 于 其 他 实例 的 。 
为 这 个 独立 性 ， 所 有 锁 必 须 由 单独 的 系统 进行 协调 。 


19.1 Hive 结 合 Zookeeper 支 持 锁 功能 


Hive 中 包含 了 一 个 使 用 Apache Zookeeper 进 行 锁定 的 锁 功 能 。 
Zookeeper 实 现 了 高 度 可 靠 的 分 布 式 协调 功能 。 处 理 需要 增加 一 些 额外 
的 设置 和 配置 步骤 。Zookeeper 对 于 Hive 用 户 来 说 是 透明 的 。 


设置 Zookeeper， 需 要 为 其 指定 一 个 或 者 多 个 服务 器 来 执行 它 的 服 
务 进程 。— 典 型 的 最 小 配置 需要 具有 3 个 Zookeeper 节 点 ， 这 样 就 可 以 提供 
一 个 群体 ， 并 保持 足够 的 见 余 。 


在 下 一 个 示例 中 ， 我 们 将 使 用 3 个 节点 : zkl1.site.pvt、zk2.site.pvt 和 
zk3.site.pvt. 


下 载 并 解压 缩 一 个 Zookeeper 发 行 包 。 通 过 如 下 一 系列 命令 ， 我 们 
就 可 以 将 Zookeeper 安 装 到 /opt 目 录 下 ， 安 装 过 程 需要 sudo 访 问 权 限 ( 对 
于 Zookeeper 之 后 的 更 新 的 版 本 ， 如 果 有 如 下 命令 的 话 ， 蕾 不 多 也 是 可 
以 通过 如 下 方式 安装 的 ) : 








$ cd /opt 
$ sudo curl -o http://www.ecoficial.com/am/zookeeper/stable/zookeeper-3.3.3.tar.gz 


$ sudo tar -xf zookeeper-3.3.3.tar.gz 
$ sudo ln -s zookeeper-3.3.3 zookeeper 





创建 一 个 目录 用 来 存放 Zookeeper 的 数据 : 


创建 一 个 Zookeeper 配 置 文件 /opt/zookeeper/conf/zoo.cfg。 这 个 配置 
文件 中 的 内 容 可 以 参考 下 面 的 信息 ， 当 然 需 要 根据 用 户 的 安装 情况 适当 
进行 修改 : 


tickTime=2000 
dataDir=/var/zookeeper 
clientPort=2181 
initLimit=5 


syncLimit=2 
server .1=zk1.site.pvt:2888:3888 


server .2=zk2.site.pvt:2888:3888 
server .3=zk3.site.pvt:2888:3888 





在 每 全 服务 右上 ， 都 需要 创建 一 个 myid 文 件 ， 并 确保 文件 内 容 和 配 





置 文件 中 配置 的 ID 匹配 。 例 如 ， 对 于 zkl.site.pvt 这 个 节点 服务 器 上 的 
myid 文 件 ， 用 户 可 以 通过 如 下 命令 进行 创建 : 


最 后 ， 通 过 如 下 命令 启动 Zookeeper: 


$ sudo /opt/zookeeper/bin/zkServer.sh start 


w a, 
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Ge 
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用 户 需 要 使 用 root 用 户 来 局 动 这 个 进程 ， 虽 然 对 于 大 多 的 进程 
都 无 需 使 用 root 用 户 局 动 。 用 尸 可 以 以 通常 的 标准 技术 使 用 其 他 的 
用 户 来 执行 这 个 文件 。 


一 旦 Zookeeper 节 点 间 相 互通 信 ， 可 能 就 会 在 一 台 Zookeeper 节 点 上 
创建 数据 ， 而 从 另 一 个 节点 上 读 取 数据 。 例 如 ， 在 某 个 节点 上 执行 如 下 


这 个 会 话 : 


$ /opt/zookeeper/bin/zkCli.sh -server zk1.site.pvt:2181 
[zk: zk1.site.pvt:2181(CONNECTED) 3] ls / 
[zookeeper ] 


[zk: zki.site.pvt:2181(CONNECTED) 4] create /zk_test my_data 
Created /zk_test 





PRR» DASE TSA A EDTA Seether EZ WRAAE 
重新 开 一 个 控制 台 来 执行 这 个 会 话 : 


$ /opt/zookeeper/bin/zkCli.sh -server zk1.site.pvt:2181 
[zk: zk1.site.pvt:2181(CONNECTED) 0] ls / 


[zookeeper, zk_test] 
[zk: zki.site.pvt:2181(CONNECTED) 1] 





Ha! 好 吧 ， 最 艰难 的 部 分 已 经 过 去 了 。 现 在 我 们 需要 配置 Hive， 让 
其 可 以 使 用 这 些 Zookeeper 节 点 来 启用 并 发 支持。 


在 $HIVE_HOME/hive-site.xml 这 个 配置 文件 中 ， 需 要 增加 如 下 属性 
配置 : 


<property> 





<name>hive .zookeeper . quorum</name> 

<value>zki.site.pvt,zk1.site.pvt, zk1.site.pvt</value> 

<description>The list of zookeeper servers to talk to. 

This is only needed for read/write locks.</description> 
</property> 


<property> 
<name>hive. support .concurrency</name> 
<value>true</value> 
<description>whether Hive supports concurrency or not. 
A Zookeeper instance must be up and running for the default 
Hive lock manager to support read-write locks.</description> 
</property> 














配置 好 这 些 属 性 后 ，Hive 会 对 特定 的 查询 自动 局 动 获取 锁 ， 用 户 可 
以 通过 SHOW LOCKS 命 令 查 看 当前 的 所 有 锁 : 


hive> SHOW LOCKS; 
default@people_20111230 SHARED 
default@places SHARED 
default@places@hit_date=20111230 SHARED 





假设 这 里 的 places 是 分 区 表 ， 如 下 这 些 更 加 集中 的 碍 询 也 是 文 持 
的 ， 其 中 的 省 略 号 可 以 换 成 一 个 适当 的 分 区 描述 。 
hive> SHOW LOCKS places EXTENDED; 


default@places SHARED 


hive> SHOW LOCKS places PARTITION (...); 
default@places SHARED 


hive> SHOW LOCKS places PARTITION (...) EXTENDED; 
default@places SHARED 








Hive 中 提供 了 2 种 类 型 的 锁 ， 开 局 并 发 功能 后 ， 它 们 也 就 自动 被 有 
人 


对 于 其 他 那些 会 以 东 种 方式 修改 表 的 操作 都 是 需要 使 用 独占 锁 的 。 
其 不 仅 会 冻结 其 他 表 修 改 操作 ， 同 时 也 会 阻止 其 他 进程 进行 查询 。 


当 表 是 分 区 表 时 ， 对 一 个 分 区 获取 独占 锁 时 会 导致 需要 对 表 本 里 获 
取 共 吝 锁 来 防止 发 生 不 相 容 的 变更 ， 例 如 当 表 的 一 个 分 区 正在 和 被 修改 的 
时 候 答 试 删除 这 个 表 。 当 然 ， 对 表 使 用 独占 锁 会 全 局 影响 所 有 的 分 区 。 











19.2 显 式 锁 和 独占 锁 


用 户 同 样 可 以 显 式 地 管理 锁 。 例 如 ， 假 设 茶 个 Hive 会 话 对 表 people 
创建 了 一 个 显 式 锁 ; 


hive> LOCK TABLE people EXCLUSIVE; 


下 面 是 男 一 个 Hive 会 话 ， 其 尝试 但 询 这 个 被 锁定 的 表 : 





hive> SELECT COUNT(*) FROM people; 
conflicting lock present for default@people mode SHARED 


FAILED: Error in acquiring locks: locks on the underlying objects 
cannot be acquired. retry after some time 








通过 UNLOCK TABLE 语 句 可 以 对 表 进 行 解 锁 ， 解 锁 后 其 他 会 话 的 
查询 就 可 以 正常 工作 了 : 


hive> UNLOCK TABLE people; 


第 20 音 ”Hive 和 Oozie 整 合 


Apache Oozie 是 一 个 工作 流 引 擎 服务 器 ， 其 用 于 运行 Hadoop 
Map/Reduce 和 Pig 任 务工 作 流 ， 官 网 地 址 
是 : http:Wincubator.apache.org/oozie/。 Hive 本 身 也 具有 一 个 内 置 的 工作 
流 系 统 。Hive 可 以 将 一 个 查询 转化 成 一 个 或 者 多 个 执行 过 程 ， 例 如 
map/reduce 执 行 过程 或 者 一 个 move 转 移 文件 的 执行 过 程 。 如 果 其 中 某 个 
过 程 失败 了 ，Hive 就 会 清理 这 个 进程 并 报告 错误 信息 。 如 果 其 中 某 个 执 
行 过 程 成 功 了 ，Hive 就 会 执行 下 一 个 子 过 程 直到 整个 job 执行 成 功 。 同 
时 ， 可 以 在 一 个 HQL 文 件 中 放置 多 个 语句 ， 然 后 Hive 会 按照 次 序 执行 这 
些 和 查询 ， 直 到 文件 中 所 有 的 语句 都 执行 成 功 为 止 。 


Hive 中 的 工作 流 控制 系统 对 于 处 理 单 个 任务 或 者 处 理 按照 次 序 执行 
的 多 个 任务 的 效果 是 非常 好 的 。 不 过 ， 一 些 工 作 流 要 比 之 复杂 得 多 。 例 
如 ， 用 户 可 能 需要 这 样 一 个 处 理 过 程 ， 其 第 1 步 是 一 个 传统 的 
MapReduce 任 务 ， 而 第 2 步 需要 使 用 到 第 1 步 的 输出 作为 输入 ， 然 后 使 用 
Hive 进 行 处 理 ， 而 最 后 1 步 是 使 用 distcp 命 令 将 第 2 步 的 输出 结果 传递 到 
中 。 这 些 形式 的 工作 流 对 于 Oozie 工 作 流 来 说 都 是 可 以 进 
行 处 理 的 。 


Oozie 工 作 流 任务 是 一 系列 “动作 ”的 有 辐 无 环 图 DAG) 。 一 些 工 
作 流 是 根据 需要 进行 触发 的 ， 但 大 多 数 情 况 下 ， 我 们 有 必要 基于 一 定 的 
时 间 段 和 或) 数据 可 用 性 和 或) 外 部 事件 来 运行 它们 。Oozie 协 调 
系统 让 用 户 可 以 基于 这 些 参 数 来 定义 工作 流 执行 计划 。Oozie 一 个 重要 
的 特点 就 是 工作 流 的 状态 是 和 发 起 任务 的 客户 端 分 离开 来 的 。 这 种 分 离 
式 的 《发 起 ， 然 后 不 再 管理 ) 任务 启动 方式 是 非常 有 用 的 。 通 常 一 个 
Hive 任 务 是 和 提交 这 个 任务 的 控制 台 联 系 在 一 起 的 。 如 果 控 制 台 中 断 
了 ， 那 么 其 任务 也 就 完成 了 一 半 了 。 

















20.1 ”Oozie 提 供 的 多 种 动作 (Action) 


Oozie 提 供 了 多 个 内 置 的 动作 。 如 下 列举 了 其 中 的 一 些 ， 并 进行 了 
简要 的 描述 


1. MapReduce 

用 户 提供 Mapper 类 和 Reducer 类 ， 并 设置 一 些 附属 变量 。 
2. Shell 

包含 参数 的 Shell 命 令 也 可 作为 动作 来 执行 
3. Java 动作 

含有 main 方 面 的 Java 类 ， 可 以 指定 参数 后 执行 
4. Pig 

可 以 执行 Pig 脚 本 。 
5. Hive 

可 以 执行 Hive 的 HQL 查 询 。 
6. DistCp 


可 以 执行 DistCp 命 令 ， 将 数据 拷贝 到 男 一 个 HDFS 和 集群 ， 或 从 男 一 
个 HDFS 集 群 找 贝 数据 到 当前 前 集群 。 


Hive Thrift Service Action 


Hive 内 置 的 动作 可 以 很 好 地 工作 ， 但 是 其 有 一 些 缺 点 。 它 们 会 将 
Hive 作 为 胖 客 户 端 来 使 用 。Hive 分 文中 的 大 部 分 ， 包括 JAR 文 件 和 配置 
文件 ， 都 需要 拷贝 到 工作 流 目 录 下 。 当 Oozie 局 动 一 个 动作 时 ， 其 就 会 
随机 地 选择 一 个 TaskTracker 节 点 进行 启动 。 如 果 用 户 设置 元 数据 存储 H 
能 从 指定 的 主机 进行 连接 的 话 ， 那 么 束 可 能 存在 连接 元 数据 存储 的 问 











题 。 因 为 如 果 任 务 失 败 了 ，Hive 会 遗留 下 如 jive-history 或 一 些 存放 
在 /omp 目录 下 的 东西 ， 所 以 需要 确保 清理 所 有 TaskTracker 上 面 的 这 些 信 


so 


通过 使 用 Hive Thrift Service 〈 人 参见 第 16 章 内 容 ) , (SEA) 可 以 解 
决 胖 客户 端 问题 。 其 中 HiveServiceBAction (表示 “Hive 服 务 B 计 划 行 动 
TR”) 使 得 可 以 通过 Hive Thrift Service 提交 任务 (job) 。 这 样 有 一 个 
ie tate 以 将 所 有 的 Hive 操 作 汇 集 到 一 个 预先 定义 的 执行 Hive 服 务 的 
N AREA Lo 


$ cd ~ 

$ git clone git://github.com/edwardcapriolo/hive_test.git 
$ cd hive_test 

$ mvn wagon:download-single 


$ mvn exec:exec 
$ mvn install 


$ cd ~ 
$ git clone git://github.com/edwardcapriolo/m6d_oozie.git 
$ mvn install 





20.2 一 个 只 包含 两 个 查询 过 程 的 工作 流 示 例 


通过 配置 特定 的 目录 结构 可 以 创建 一 个 工作 流 。 这 里 的 目录 结构 里 
含有 我 们 所 需要 的 JAR 文 件 ， 一 个 是 job.properties 文 件 ， 男 一 个 
是 workjlow.xml 文 件 。 这 个 目录 必须 创建 在 HDFS 中 ， 但 最 好 先 在 本 地 创 
建 好 文件 夹 ， 然 后 将 其 拷贝 到 HDFS 中 : 





mkdir myapp 
mkdir myapp/1lib 
cp $HIVE_HOME/1ib/*.jar myapp/1lib/ 


cp m6d_oozie-1.0.0.jar myapp/1lib/ 
cp hive_test-4.0.0.jar myapp/1lib/ 








文件 job.properties 中 配置 有 文件 系统 NameNode 地 址 和 Jobtracker 地 
址 。 同 时 ， 还 可 以 在 这 里 设置 一 些 Hadoop Job 配 置 文件 中 的 属性 信息 : 


如 下 是 个 job.properties 文 件 内 容 的 例子 : 


nameNode=hdfs://rs01.hadoop. pvt: 34310 
jobTracker=rjt.hadoop.pvt:34311 

queueName=default 

oozie.libpath=/user/root/oozie/test/lib 

oozie.wf .application. path=${nameNode}/user/root/oozie/test/main 





文件 workflow.xml 对 动作 进行 了 定义 : 





<workflow-app xmlns="uri:oozie:workflow:0.2" name="java-main-wf"> 
<start to="create-node"/> 
<!--The create-node actual defines a table if it does not 


already exist--> 
<action name="create-node"> 
<java> 
<job-tracker>${jobTracker}</job-tracker> 
<name -node>${nameNode}</name -node> 
<configuration> 
<property> 
<name>mapred. job. queue.name</name> 
<value>${queueName}</value> 
</property> 
</configuration> 
<main-class>com.m6d.oo0zie.HiveServiceBAction</main-class> 
<arg>rhiveservice.hadoop.pvt</arg> 


<arg>10000</arg> 

<arg>CREATE TABLE IF NOT EXISTS zz_zz_abc (a int, b int)</arg> 
</java> 
<!-- on success proceded to query_node action --> 


<ok to="query_node"/> 
<!-- on fail end the job unsuccessfully--> 


<error to="fail"/> 
</action> 


<!-- populate the contents of the table with an 
insert overwrite query --> 
<action name="query_node"> 
<java> 
<job-tracker>${jobTracker}</job-tracker> 
<name -node>${nameNode}</name -node> 
<configuration> 
<property> 
<name>mapred. job. queue.name</name> 
<value>${queueName}</value> 
</property> 
</configuration> 
<main-class>com.m6d.oo0zie.HiveServiceBAction</main-class> 
<arg>rhiveservice.hadoop.pvt</arg> 
<arg>10000</arg> 
<arg>INSERT OVERWRITE TABLE zz_zz_abc SELECT dma_code,site_id 
FROM BCO WHERE dt=20120426 AND offer=4159 LIMIT 10</arg> 
</java> 
<ok to="end"/> 
<error to="fail"/> 
</action> 


<kill name="fail"> 
<message>Java failed, error message 
[${wf :errorMessage(wf : LlastErrorNode( ))}]</message> 
</kill> 
<end name="end"/> 
</workflow-app> 





20.3 Oozie 网 页 控制 台 


使 用 Oozie 网 页 控制 台 可 以 获得 操作 执行 的 细节 ， 也 因此 便于 进行 
任务 错误 定位 。Oozie 会 在 每 个 map 任 务 (task) 中 启动 每 个 动作 并 获取 





其 所 有 的 输入 和 输出 。Oozie 可 以 很 好 地 展示 这 些 信息 并 提供 链接 ， 方 
便 到 Hadoop 的 JobTracker 网 页 控制 台 查 看 这 些 任务 (job) 状态 信息 。 


图 20-1 是 一 张 Oozie 网 页 控制 台 的 屏幕 截图 。 
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图 20-1 Oozie 网 页 控制 台 屏 幕 截 图 








20.4 工作 流 中 的 变量 


基于 完全 静态 碍 询 的 工作 流 是 很 有 用 的 ， 但 是 并 不 太 实 用 。Oozie 
中 的 大 多 数 使 用 场景 是 执行 今天 或 本 周 的 一 系列 文件 的 处 理 过 程 。 


在 前 面 的 工作 流 中 ， 你 可 能 注意 到 了 KILL 这 个 标记 以 及 其 中 插入 
的 变量 : 








<kill name="fail"> 
<message>Java failed, error message 


[${wf :errorMessage(wf:lastErrorNode())}]</message> 
</kill> 





Oozie 提 供 a 一 个 ETL 来 访问 这 些 变量 。job.properties 文 件 中 定义 的 
键 - 值 对 可 以 通过 这 种 方式 进行 引用 。 


20.5 ”获取 输出 


Oozie 中 还 提供 了 一 个 可 以 放置 到 动作 中 的 <captureOutput/> 标 记 。 
通过 这 个 标记 可 以 捕获 输出 ， 并 可 以 将 其 连同 错误 信息 通过 邮件 发 出 或 
者 将 输出 发 送 给 其 他 处 理 过 程 。Oozie 在 每 个 动作 中 都 设置 了 一 个 Java 属 
a ne atl neers 
这 个 属性 : 








private Static final String 
OOZIE_ACTION_OUTPUT_PROPERTIES = "oozie.action.output.properties"; 





public static void main(String args[]) throws Exception { 
String oozieProp = System.getProperty(OOZIE_ACTION_OUTPUT_PROPERTIES) ; 


} 








用 户 的 应 用 程序 可 以 同 该 位 置 输出 数据 。 


20.6 ”获取 输出 到 变量 


我 们 已 经 讨论 了 如 何 获 取 输 出 以 及 如 何 获 取 Oozie 变 量 ， 将 这 两 者 
结合 在 一 起 使 用 ， 就 可 以 满足 日 党 的 工作 流 使 用 需求 了 。 


看 一 下 我 们 前 面 的 那个 例子 ， 可 以 看 到 ， 我 们 是 从 硬 编码 的 FROM 
BCO WHERE dt=20120426 这 天 获取 数据 的 。 如 果 我 们 期 望 每 天 都 执行 
这 个 工作 流 的 话 ， 那 么 我 们 束 需 要 将 硬 编码 的 dt=20120426 内 容 使 用 一 
个 日 期 变量 进行 蔡 换 : 


<action name="create_table"> 
<java> 
<job-tracker>${jobTracker}</job-tracker> 
<name -node>${nameNode}</name -node> 
<configuration> 
<property> 
<name>mapred. job. queue.name</name> 
<value>${queueName}</value> 
</property> 


</configuration> 
<main-class>test.RunShellProp</main-class> 


<arg>/bin/date</arg> 
<arg>+x=%Y%m%d</arg> 
<capture-output /> 
</java> 
<ok to="run_query"/> 
<error to="fail"/> 
</action> 


这 将 产生 如 下 类 似 的 输出 : 


$ date +x=%Y%m%d 
X=20120522 


那么 就 可 以 在 这 个 处 理 过 程 后面 使 用 这 个 输出 了 : 


<arg>You said ${wf:actionData('create_table')['x']}</arg> 


使 用 Oozie 还 可 以 做 很 多 其 他 的 工作 ， 包 括 将 Hive 任务 (Gob) 和 使 
用 其 他 工具 (如 Pig、Java MapReduce 等 ) 实现 的 任务 Gob) 的 整合 使 
用 。 





第 21 章 Hive 和 亚马逊 网 络 服 务 系 
zt (AWS) 


Mark Grover 





Amazon 提 供 的 作为 AmazonWeb 服 务 (AWS) 一 部 分 的 就 是 弹性 
MapReduce (EMR) 。 使 用 EMR 可 以 按 需 组 建 一 个 由 节点 组 成 的 集群 。 
这 些 集群 用 于 Hadoop 和 Hive 的 安装 和 配置 。 (用户 也 可 以 配置 这 个 集 
群 ， 以 使 用 Pig 或 者 其 他 工具 。) 用 户 可 以 执行 Hive 查 询 语句 ， 然 后 在 
完成 所 有 任务 后 终止 这 个 集群 ， 整 个 过 程 只 需 为 使 用 这 个 集群 的 时 间 付 
费 。 本 节 将 描述 如 何 使 用 弹性 MapReduce， 介 绍 一 些 基本 的 实践 ， 包 括 
使 用 EMR 和 其 他 一 些 蔡 代 方案 的 属性 和 配置 。 


在 阅读 本 章 时 ， 用 户 可 以 通过 如 下 链接 获取 在 线 AWS 文 档 说 
HH: http:/aws.amazon.comyelasticmapreduce/。 本 章 将 不 会 涵 括 所 有 的 在 
Amazon EMR 中 使 用 Hive 的 细节 。 本 章 只 会 提供 一 个 概述 并 详细 探讨 一 
些 实践 操作 。 








21.1 为 什么 要 弹性 MapReduce 


较 小 的 团队 和 初创 的 公司 经 党 没有 足够 的 资源 来 建立 自己 的 集群 ， 
而 自 建 的 集群 需要 在 初始 阶段 进行 固定 的 投资 消耗 ， 需 要 有 能 力 搭建 、 
服务 和 切换 ， 包 括 维 护 Hadoop 和 Hive 安 装 。 


从 另 一 方面 来 说 ， 弹 性 MapReduce 性 价 比 高 ， 而 且 其 由 Amazon 来 
安装 和 维护 。 这 对 于 那些 没有 能 力 或 者 不 期 望 投资 自己 的 集群 的 团队 来 
说 是 非常 有 益 的 ， 甚 至 对 于 大 的 团队 也 可 以 在 不 影响 自己 的 生产 集群 的 
情况 下 对 新 工具 和 新 创意 进行 测试 。 








21.2 ”实例 


一 个 Amazon 集 群 由 一 个 或 者 多 个 实例 组 成 。 各 种 实例 大 小 不 同 ， 
使 用 不 同 的 RAM， 提 供 不 同 的 计算 能 力 、 存 储 空间 、 平 台 和 IO 处 理 能 
力 。 很 难说 针对 用 户 的 使 用 场景 使 用 多 少 的 集群 可 以 达到 最 佳 效 果 。 使 
用 EMR， 可 以 在 开始 的 时 候 使 用 较 小 的 实例 ， 并 使 用 如 Ganglia 这 样 的 
ma 然后 对 多 个 不 同 大 小 的 实例 进行 试验 ， 找 到 平衡 成 本 和 
性 能 的 最 佳 值 。 





21.3 ”开始 前 的 注意 事项 


在 使 用 Amazon EMR 之 前 ， 用 户 需 要 先 设 置 一 个 Amazon Web 
Services(AWS) 账 号 。 在 “Amazon EMR” 开 始 指南 中 提供 了 如 何 注 册 一 个 
AWS 账号 的 操作 说 明 。 


用 户 还 需要 创建 一 个 Amazon S3 数 据 桶 用 于 存储 用 户 输入 数据 并 获 
取 用 户 Hive 处 理 过 程 的 输出 结果 。 


当 用 户 设置 好 AWS 账 号 后 ， 需 要 确保 其 所 有 的 Amazon EC2 实 例 、 
键 对 、 安 全 组 和 EMR 工作 流 都 位 于 同一 个 区 域 以 避免 跨 区 域 数 据 传输 
消耗 。 将 Amazon S3 数 据 桶 和 EMR 工作 流 设 置 在 同一 个 区 域 将 获得 更 高 
的 性 能 。 


尽管 Amazon EMR 支 持 多 个 版 本 的 Hadoop 和 Hive， 不 过 只 有 一 些 配 
套 的 Hadoop 和 Hive 版 本 才 支 持 Amazon EMR。 查 看 Amazon EMR 文 档 以 
获取 支持 的 Hadoop 和 Hive 组 合 版 本 。 





21.4 管理 自 有 EMR Hive 集 群 


Amazon 提 供 了 多 种 方式 来 创建 、 终 止 和 修改 Hive 集群 。 目 前 用 户 
可 以 通过 如 下 3 种 方式 来 管理 用 户 的 EMR Hive 集 群 。 


1. EMR AWS 管 理 控制 台 (基于 Web 的 前 端 控制 台 ) 


这 是 搭建 集群 而 无 需 安 疲 过 程 的 最 简单 的 方式 。 不 过 ， 当 规模 增 
大 时 ， 最 好 使 用 其 他 的 方式 进行 搭建 。 


2. EMR 命 令 行 交互 界面 

这 种 方式 允许 用 户 使 用 简单 的 基于 Ruby 的 名 为 elastic-mapreduce 的 
CLI 来 管理 集群 。 

Amazon EMR 在 线 文档 描述 了 如 何 安 装 和 使 用 CLI。 
3. EMR API 


这 种 方式 允许 用 户 使 用 一 个 名 为 EMR API 的 特定 语言 的 SDK 来 管理 
EMRE. E Amazon EMR 文 档 中 有 介绍 下 载 和 使 用 这 种 SDK 的 详细 介 
绍 。SDK 日 前 支持 Android、iOS、Java、PHP、Python、Ruby、 
Windows 和 .NET。SDK 的 一 个 缺点 是 ， 有 时 特定 的 SDK 包 含 的 实现 可 能 
没有 最 新 版 本 的 AWS API 提 供 的 新 。 


通常 会 使 用 多 种 方式 来 管理 Hive 集 群 。 


下 面 是 一 个 使 用 Ruby elastic-mapreduce CLI 来 创建 一 个 包含 有 配置 
好 的 Hive 的 单 节点 Amazon EMR 集 群 的 例子 。 其 不 仅 提 供 了 执行 任务 和 
还 为 集群 安装 了 一 个 交互 界面 。 这 样 的 集群 是 学 习 Hive 的 
FERS TA. 


elastic-mapreduce --create --alive --name "Test Hive" --hive-interactive 





如 果 用 户 想 使 用 Pig 的 话 ， 那 么 在 这 里 增加 --pig-interface 选项 即 


可 





下 一 步 束 是 按照 Amazon EMR 文 档 中 描述 的 方式 登录 到 这 个 集群 中 
Te 


21.5 EMR Hive 上 的 Thrift Server 服 务 


通常 情况 下 ，Hive Thrift Server 〈 请 参考 第 16 章 的 内 容 ) 是 监听 来 
自 端口 10 000 的 连接 的 。 不 过 ， 在 Amazon Hive 安 装 中 ， 这 个 端口 值 取 
决 于 所 使 用 的 Hive 的 版 本 。 这 样 做 的 目的 是 可 以 允许 用 户 安装 并 并 发 支 
持 多 个 版 本 的 Hive。 因 此 ，Hive 0.5.x 版 本 使 用 的 是 10 000 端 口 。Hive 
0.7.x 使 用 的 是 10 001 端 口 ， 而 Hive v0.7.1 使 用 的 是 10 002 端 口 。 当 
Amazon EMR 中 新 增 新 版 本 的 Hive 时 这 个 端口 值 应 该 是 要 改变 的 。 








21.6 EMR 上 的 实例 组 


每 个 Amazon 集群 都 具有 一 个 或 者 多 个 节点 。 每 个 节点 都 可 以 放 入 
到 如 下 3 种 实例 组 中 的 一 组 中 。 


1. 管理 者 实例 组 


这 个 实例 组 只 舍 有 一 个 阅 点 ， 称 之 为 管理 者 节点 。 这 个 管理 者 节点 
和 Hadoop 的 master 节 点 的 功能 是 相同 的 。 其 上 面 运 行 着 namenode 和 和 
jobtracker 守 护 进程 ， 不 过 这 上 面 还 安装 有 Hive。 另 外 ， 其 上 还 安装 有 一 
个 MySQL 服 务 器 ， 其 被 配置 为 EMR Hive 的 元 数据 存储 。 (Apache Hive 
中 默认 是 使 用 Derby 作 为 元 数据 存储 的 ， 这 里 不 会 使 用 这 个 。) 在 管理 
者 节点 上 还 运行 着 一 个 实例 管理 器 。 其 用 于 在 其 他 2 种 实例 组 中 执行 和 
管理 其 他 实例 。 需 要 注意 的 是 这 个 实例 管理 器 同样 会 使 用 到 管理 者 节点 
上 的 MySQL 服 务 器 。 如 果 这 个 MySQL 服 务 器 不 可 用 的 话 ， 那 么 这 个 实 
例 控制 器 就 无 法 执行 和 管理 实例 。 


2. 核心 实例 组 


核心 实例 组 中 的 节点 和 Hadoop slave 节 点 的 具有 相同 的 功能 ， 会 同 
时 启动 datanode 和 tasktracker 守 护 进程 。 这 些 布 点 用 于 MapReduce 任 务 计 
算 ， 同 时 也 用 于 HDFS 存 储 。 一 旦 集群 启动 ， 这 个 实例 组 内 的 节点 个 数 
只 能 增 不 能 减 。 需 要 特别 注意 的 是 ， 一 旦 集群 终止 了 ， 这 些 节 点 上 存储 
的 数据 就 会 丢失 。 


3. 任务 〈task) 实例 组 


这 是 一 个 可 选 的 实例 组 。 在 本 组 中 的 节点 同样 具有 Hadoop 中 salve 
节点 的 功能 。 不 过 ， 它 们 只 执行 tasktracker 进 程 。 因 此 ， 这 些 节点 用 于 
MapReduce 任 务 (task) ， 但 无 法 用 于 存储 HDFS 数 据 块 。 集 群 局 动 后 ， 
EF (task) 实例 组 内 的 节点 个 数 可 能 有 时 增加 ， 有 时 减少 。 


当 用 户 在 高 峰 期 的 那 几 个 小 时 增加 集群 处 理 能 力 ， 然 后 再 调整 到 正 
常情 况 时 ， 使 用 任务 Cask) 实例 组 是 非常 便利 的 。 同 样 对 于 那些 既 希 
望 可 以 低 成 本 使 用 现 买 现 卖 实例 ， 而 叉 期 望 当 集群 中 节点 被 移 除 后 不 会 
有 丢失 数据 的 风险 的 情况 ， 同 样 是 适用 这 种 解决 办 法 的 。 














如 果 用 户 使 用 的 是 单 点 集群 的 话 ， 那 么 这 个 节点 将 同时 是 管理 者 市 
点 和 核心 节点 。 


21.7 ”配置 EMR 人 和 集群 


在 使 用 EMR 集 群 时 ， 用 户 经 党 需要 部 团 自 己 的 配置 文件 。 一 般 要 配 
置 的 文件 有 hive-site.xm、.hiverc、hadoop-env.sh。Amazon 提 供 了 一 种 方 
式 来 重 载 这 些 配置 文件 。 








21.7.1 部署 hive-site.xml 文 件 
为 了 重 载 hive-site.xml 文 件 ， 前 先 需 要 上 传 用 户 自 定义 hive-site.xml 
文件 到 S3 中 。 我 们 假设 其 已 经 上 传 到 S3 中 如 下 路 径 : 


s3n://example.hive.oreilly.com/tables/hive_site.xml. 


td. 
| 国生 提示 
建议 使 用 最 新 93 模式" 来 访问 S3， 其 比 之 前 的 s3 模 式 具 有 更 


如 果 用 户 是 通过 elastic-mapreduce Ruby 客 户 端 来 启动 集群 的 话 ， 那 
么 可 以 使 用 类 似 如 下 的 命令 使 用 用 户 自 定义 的 hive-site.xml 来 分 割 集 
群 : 





elastic-mapreduce --create --alive --name "Test Hive" --hive-interactive \ 





--hive-site=s3n://example.hive.oreilly.com/conf/hive_site. xml 


如 果 用 户 是 使 用 SDK 来 分 割 集 群 的 话 ， 那 么 可 以 使 用 合适 的 方法 来 
重 载 hive-site.xml 文 件 。 在 引导 程序 之 后 ， 用 户 需 要 2 个 配置 步骤 。 其 一 
是 安装 Hive， 其 二 是 部 署 hive-site.xml 文 件 。 第 1 个 步骤 安 装 Hive 需 要 同 
时 调用 --install-hive 和 --hive-versions， 后 者 的 值 是 使 用 有 逗 号 分 割 符 的 期 
望 安 装 到 集群 中 的 Hive 版 本 列表 。 


第 2 个 步骤 是 安装 Hive site 配 置 文件 ， 使 用 的 命令 是 --install-hive- 
site, 其 后 跟着 一 个 参数 如 --hive- 
site=s3n://example.hive.oreilly.com/tables/hive_site.xml, «87 ZEH 
hive-site.xml 文 件 所 在 的 位 置 。 








21.7.2 部署 .hiverc 脚 本 


对 于 .hiverc， 用 户 同样 需要 先 将 其 上 传 到 S3 中 。 然 后 用 户 可 以 使 用 
配置 过 程 或 者 在 引导 程序 来 将 这 个 文件 部 署 到 集群 中 。 需 要 注意 的 
古 .hiverc 可 以 部 署 到 用 户 根 目录 下 ， 或 者 部 区 在 Hive 安 装 目 录 下 的 bin 目 
a 下 














1. 使 用 配置 步骤 部 署 .hiverc 脚 本 


在 写本 篇 时 ，Amazon 提 供 的 名 为 hive-script 的 Ruby 脚本 还 没有 提供 
重 载 .hiverc 文 件 的 功能 ， 这 个 脚本 可 以 在 如 下 地 址 查看 到 : s3n://us-east- 


1.elasticmapreduce/libs/hive/hive-script. 


因此 ， 无 法 像 安 装 hive-site.xml 文 件 那么 轻松 地 安装 .hiverc 文 件 。 不 
过 ， 如 果 用 户 不 介意 修改 Ruby 代 码 的 话 ， 通 过 简单 修改 Amazon 提 供 的 
hive-script 脚 本 是 可 以 启用 安装 .hiverc 的 。 进 行 这 样 的 修改 之 后 ， 需 要 将 
这 个 文件 上 传 到 S3， 然 后 使 用 这 个 版 本 而 非 Amazon 提 供 的 版 本 即 可 。 
o 以 将 .hiverc 安 装 到 用 户 的 根 目 录 下 或 者 Hive 安 装 目 录 下 的 
bin 上 有 目录 下 。 


2. 使 用 辅助 工具 脚本 部 晋 .hiverc 脚 本 


或 者 ， 用 户 可 以 创建 一 个 自 定 义 的 引导 程序 脚本 来 将 .hiverc 文 件 传 
送 到 管理 者 节点 的 用 户 根 目录 下 或 Hive 的 安装 目录 下 的 bin 目 录 下 。 在 
这 样 的 脚本 中 ， 用 户 应 该 首先 使 用 S3 访 问 码 配置 集群 上 的 s3cmd 脚 本 ， 
用 户 也 需要 使 用 这 个 S3 访 问 码 才 能 从 S3 下 载 .hiverc 文 件 。 然 后 ， 使 用 类 
en 并 将 其 部 署 到 用 户 根 目录 











s3cmd get s3n://example.hive.oreilly.com/conf/.hiverc ~/.hiverc 


然后 在 集群 创建 过 程 中 使 用 一 个 引导 程序 动作 来 调用 这 个 脚本 ， 这 
和 设置 其 他 的 引导 程序 动作 是 一 样 的 。 


21.7.3 ”建立 一 个 内 存 密集 型 配置 


如 果 用 户 执行 的 是 一 个 内 存 密 集 型 的 任务 (Job) ，Amazon 提 供 了 
一 些 预 定义 的 引导 程序 动作 可 用 于 调 优 Hadoop 配 置 参数 。 例 如 ， 在 划分 








集群 的 时 候 可 以 使 用 memory-intensive 引 导 程 序 动作 ， 可 以 在 elastic- 
mapreduce -create 命令 后 使 用 如 下 的 标记 (为 显示 美观 ， 进 行 了 换 


47): 


--bootstrap-action 





s3n://elasticmapreduce/bootstrap-actions/configurations/latest/memory-intensive 


21.8 EMR 上 的 持久 层 和 元 数据 存储 


EMR 集 群 本 身 开 始 时 就 会 在 集群 的 管理 者 节点 上 安装 一 个 MySQL 
服务 器 。 默 认 情 况 下 ，EMR Hive 使 用 这 个 MySQL 服 务 右 作为 元 数据 存 
储 。 不 过 ， 当 这 个 集群 被 用 户 终止 后 所 有 存在 节点 上 的 数据 也 将 会 被 清 
空 ! 这 通常 是 不 可 接受 的 。 因 为 用 户 需 要 将 表 模 式 等 信息 保持 在 一 个 稳 
固 的 元 数据 存储 上 。 


用 户 选 取 使 用 如 下 多 种 方法 中 的 一 种 来 绕 过 这 个 限制 。 
1. 使 用 EMR 集 群 外 的 稳固 的 元 数据 存储 


在 第 2.5.3 市 “使 用 JDBC 连 接 元 数据 存储 ”中 我 们 已 经 介绍 过 了 如 何 
在 Hive 中 安装 使 用 外 部 元 数据 存储 。 用 户 可 以 选用 基于 MySQL 的 
Amazon RDS (关系 型 数据 服务 ) ， 或 者 其 他 内 部 数据 库 服 务 器 来 作为 
元 数据 存储 。 当 用 户 期 望 多 个 EMR 集 群 使 用 同一 个 元 数据 存储 或 者 同一 
个 EMR 集 群 上 执行 多 个 版 本 的 Hive 时 ， 这 是 可 以 采取 的 最 好 的 选择 。 


2. 使 用 初始 化 脚本 
如 果 用 户 不 期 望 使 用 外 部 数据 库 服 务 器 来 作为 元 数据 存储 的 话 ， 那 
么 用 户 同 样 可 以 结合 用 户 初 始 化 脚本 来 使 用 管理 者 节点 上 的 元 数据 存 
储 。 用 户 可 以 将 类 似 如 下 的 创建 表 语 句 保 存在 名 为 startup.q 的 文件 中 : 


CREATE EXTERNAL TABLE IF NOT EXISTS emr_table(id INT, value STRING) 
PARTITIONED BY (dt STRING) 




















LOCATION 's3n://example.hive.oreilly.com/tables/emr_table'; 


很 有 必要 在 创建 表 语 句 中 使 用 IF NOT EXISTS 语 句 ， 来 确保 不 会 删 
除 管 理 者 节点 元 数据 存储 中 由 之 前 初始 化 脚本 创建 好 的 同名 的 表 。 


到 这 里 ， ee 吉 构 信息 了 ， 但 是 我 们 
还 没有 加 入 分 区 信息 。 在 startup.q 文 件 中 创建 表 ? 后 名 后 加 入 如 下 一 行 命 
令 即 可 : 

这 行 命 令 可 以 在 元 数据 存储 中 补 全 所 有 的 分 区 元 数据 信息 内 容 。 除 




















了 使 用 用 户 自 定 义 的 初始 化 脚本 外 ， 还 可 以 使 用 .hiverc 达 到 同样 的 效 
果 ， 这 个 文件 在 Hive CLI 司 动 时 会 自动 执行 一 过。 我们 将 在 第 21.14 
节 “EMR 和 EC2 以 及 Apache Hive 的 比较 ”中 进行 讨论 。) 


使 用 .hiverc 的 好 处 是 其 可 以 被 目 动 调用 。 而 缺点 是 ， 每 次 执行 ， 
pe aCe 0 eA eure ee era 





使 用 用 户 自 定 义 初始 化 脚本 的 好 处 是 ， 用 户 可 以 在 工作 流 的 执行 周 
期 中 进行 更 有 效 的 控制 。 不 过 ， 用 户 需要 自己 控制 这 个 调用 。 无 论 如 
何 ， 使 用 一 个 保存 Hive 语 句 的 文件 来 用 于 初始 化 有 一 个 附带 的 好 处 是 ， 
用 户 可 以 通过 版 本 控制 来 跟踪 DDL 变 更 情况 。 








wa, 
Sa 
È ER 


当 表 和 分 区 变 得 很 多 时 ， 元 数据 信息 将 变 得 更 多 ， 这 样 这 个 系 
统 中 的 初始 化 脚本 执行 的 时 间 束 会 越 来 越 长 。 因 此 如 采 表 或 分 区 非 
常 多 ， 不 建议 使 用 这 种 方法 。 


3. 在 S3 上 进行 MySQL dump 操 作 


还 有 一 种 方式 《尽管 麻烦 ) ， 丈 是 在 集群 终止 之 前 对 元 数据 存储 进 
行 备 份 ， 然 后 在 下 一 个 工作 流 开始 时 恢复 到 元 数据 存储 中 。S3 在 集群 未 
使 用 时 执行 这 个 备份 是 最 合适 不 过 了 。 


需要 注意 的 是 ， 这 个 元 数据 存储 并 不 能 在 EMR 人 和 集群 上 支持 的 多 个 版 
本 Hive 共 用 。 假 设 用 户 划 分 出 一 个 集群 ， 其 中 安装 有 Hive 0.5.0 和 v0.7.1 
2 个 版 本 的 话 。 当 用 户 使 用 Hive v0.5 创 建 了 一 张 表 后 ， 那 么 是 无 法 使 用 
Hive v0.7.1 来 访问 这 张 表 的 。 如 果 用 户 期 望 多 个 Hive 版 本 共用 同一 个 元 
数据 存储 ， 用 户 必 需要 使 用 一 个 外 部 稳固 的 元 数据 存储 。 





21.9 ”EMR 集群 上 的 HDFS 和 S3 


在 EMR 和 集群 中 HDFS 和 S3 都 有 其 独特 的 角色 。 当 集群 终止 后 其 上 所 
有 的 数据 都 会 被 清除 掉 。 因 为 HDFS 是 由 核心 实例 组 中 的 临时 存储 节点 
组 成 的 ， 所 以 当 集 群 终止 后 HDFS 上 存储 的 数据 会 全 部 于 失 。 


从 另 一 方面 来 说 ，S3 提 供 了 一 个 和 EMR 和 集群 相关 联 的 持久 性 存 
储 。 不 过 ， 人 集群 中 的 输入 数据 必须 是 存储 在 $S3 上 的 数据 ， 而 Hive 处 理 过 
程 产生 的 最 终结 果 同 时 也 必须 持久 化 到 S$3 中 。 不 管 怎样 ，S3 是 HDFS 的 
一 个 昂贵 的 替代 存储 方案 。 不 过 ， 处 理 过 程 中 的 中 间 数 据 应 该 存储 在 
HDFS 中 ， 而 只 有 需要 持久 化 的 最 终结 果 才 存储 到 S3 中 。 


需要 注意 的 一 点 是 ， 如 果 使 用 S3 作 为 输入 数据 源 的 话 ， 存 在 一 个 缺 
点 就 是 ， 无 法 使 用 Hadoop 的 本 地 化 数据 处 理 优化 ， 其 带 来 的 性 能 表现 可 
能 是 非常 显著 的 。 如 果 对 于 用 户 的 分 析 来 说 这 个 功能 是 非常 必要 的 ， 那 
么 建议 最 好 在 处 理 前 从 S3 中 将 这 些 “ 热 ”数据 导入 到 HDFS 中 ， 然 后 再 进 
RR 
处 理 优 化 。 





21.10 在 S3 上 部 署 资源 、 配 置 和 辅助 程序 脚本 


用 户 需 要 将 所 有 的 初始 化 脚本 、 配 置 脚本 〈 例 如 hive-site.xml 
和 .hiverc 文 件 ) 、 资 源 文件 《例如 需要 载 入 到 分 布 式 缓存 中 的 文件 、 
UDF 或 者 streaming 使 用 到 的 JAR 文 件 等 ) 等 上 传 到 $S3 中 。 因 为 EMR 
Hive 和 Hadoop 安 装 原 生地 就 可 以 处 理 S3 路 笃 ， 所 以 在 随后 的 Hadoop 处 
理 任务 中 可 以 直接 使 用 这 些 文件 。 


例如 ， 用 户 可 以 将 如 下 几 行 命令 增加 到 .hiverc 文 件 中 ， 其 可 以 正 帝 
全 








ADD FILE s3n://example.hive.oreilly.com/files/my_file.txt; 
ADD JAR s3n://example.hive.oreilly.com/jars/udfs. jar; 





CREATE TEMPORARY FUNCTION my_count AS 'com.oreilly.hive.example.MyCount'; 


21.11 S3 上 的 日 志 


Amazon EMR 会 将 日 志 写 入 到 log-uri 字 段 所 指 同 的 S3 路 径 下 。 其 中 
包含 有 集群 引导 程序 动作 所 产生 的 日 志和 在 不 同 的 集群 节点 上 执行 的 守 
护 进 程 所 产生 的 日 志 。log-uri 这 个 配置 项 可 以 在 elastic-mapreduce Ruby 
客户 端 安装 目录 下 的 credentials.json 文 件 中 进行 配置 ;或 者 也 可 以 在 使 
用 elastic-mapreduce 划 分 集群 时 ， 使 用 --log-uri 标 记 显 式 地 进行 指定 。 如 
果 这 个 内 容 没 有 设置 的 话 ， 那 么 就 无 法 在 S3 中 获得 那些 日 志 。 


如 果 用 户 设置 的 工作 流 一 旦 认为 遇 到 错误 就 终止 掉 的 话 ， 那 么 在 集 
群 终止 后 会 丢失 所 有 存放 在 集群 上 的 日 志 信 息 。 如 果 用 户 指定 了 log-uri 
配置 的 值 ， 那 么 即使 集群 终止 挥 了 ， 还 是 可 以 在 S3 上 指定 的 路 径 下 找到 
这 些 日 志 的 。 这 些 日 志 可 以 帮助 用 户 确 认 产 生 失 败 的 原因 ， 帮 助 解决 问 
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志清 除 掉 以 减少 产生 不 必要 的 存储 成 本 ! 


21.12 MEME 


现 买 现 卖 业 务 允 许 用 户 随 着 需求 的 变化 获得 更 低 的 价格 来 使 用 
Amazon 实 例 。Amazon 的 在 线 文 档 对 其 有 着 非常 详细 的 描述 。 


假设 根据 实际 使 用 情况 ， 用 户 希 望 所 具有 的 3 个 实例 组 是 现 买 现 卖 
的 。 在 这 种 情况 下 ， 在 工作 流 的 任意 一 个 阶段 都 是 可 能 导致 集群 终止 
的 ， 这 样 束 会 村 致 丢失 中 间 临 时 数据 。 如 果 重 新 进行 这 个 计算 很 “ 便 
宜 ” 的 话 ， 那 么 这 可 能 并 非 是 个 严重 的 问题 。 一 种 解决 办 法 就 是 将 中 间 
数据 持久 化 到 S3 中 ， 那 么 任务 束 可 以 从 这 些 镜 像 中 重新 执行 了 。 


另 一 种 方式 就 是 只 将 任务 实例 组 的 节点 作为 现 买 现 卖 节点 。 如 果 这 
些 现 买 现 卖 节点 因为 无 效 或 者 因为 现 买 现 卖 价 格 增长 而 剔除 出 集群 的 
话 ， 原 来 的 工作 流 在 管理 者 和 核心 节点 上 还 可 以 继续 执行 ， 而且 不 会 有 
数据 丢失 。 现 买 现 卖 节 点 重新 加 入 到 集群 中 后 ，MapReduce 任 务 可 以 侦 
测 到 它们 ， 可 以 加 快 整个 工作 流 。 


使 用 elastic-mapreduce Ruby 客 户 端 ， 现 买 现 卖 实例 可 以 通过 --bid- 
price 选 项 指定 一 个 权重 来 进行 排序 。 下 面 这 个 例子 展示 了 如 何 创建 一 个 
具有 单个 管理 者 、2 个 核心 节点 和 2 个 现 买 现 卖 节 点 (位 于 任务 实例 组 ) 
的 集群 ， 并 为 其 指定 权重 为 10 美 分 : 




















elastic-mapreduce --create --alive --hive-interactive \ 
--name "Test Spot Instances" \ 
--instance-group master --instance-type mi.large \ 


--instance-count 1 --instance-group core \ 
--instance-type mi.small --instance-count 2 --instance-group task \ 
--instance-type m1.small --instance-count 2 --bid-price 0.10 





如 果 用 户 使 用 Java SDK 划 分 一 个 微 集 群 的 话 ， 那 么 可 以 使 用 下 面 的 
GroupConfig 实 例 配置 管理 者 、 核 心 和 任务 实例 组 : 








InstanceGroupConfig masterConfig = new InstanceGroupConfig() 
.withInstanceCount (1) 

.withInstanceRole( "MASTER" ) 

.withInstanceType("mi.large"); 

InstanceGroupConfig coreConfig = new InstanceGroupConfig() 
.withInstanceCount (2) 

.withInstanceRole("CORE" ) 

.withInstanceType("m1.small"); 

InstanceGroupConfig taskConfig = new InstanceGroupConfig() 
.withInstanceCount (2) 


.withInstanceRole("TASK" ) 
.withInstanceType("m1.small1") 
.withMarket ("SPOT") 
.withBidPrice("0.05"); 
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如 果 某 个 map 或 者 reduce 任 务 (task) 失败 了 ，Hadoop 就 需要 重 
新 启动 它们 。 如 果 同 一 个 task 失 败 了 4 次 《可 配置 的 ， 可 以 通过 设置 
MapReduce 属 性 mapred.map.max.attempts 修 改 map 任 务 的 最 多 尝试 次 
数 ， 通 过 修改 mapred.reduce.max.attempts 可 以 修改 reduce 任 务 的 最 多 
尝试 次 数 ) ， 那 么 整个 任务 (job) 就 会 失败 。 如 果 依 赖 于 太 多 的 
现 买 现 卖 实例 的 话 ， 那 么 用 户 的 任务 (job〉 可 能 会 因为 
TaskTracker 被 移 除 出 集群 导致 无 法 推测 执行 或 导致 整个 任务 

(job) 失败 。 


21.13 ZEH 


Hadoop 的 JobTracker 和 NameNode 用 户 接口 可 以 在 EMRmaster 节 点 上 
分 别 在 端口 9 100 和 9 101 上 被 访问 到 。 用 户 可 以 通过 ssh 隧 道 或 者 使 用 动 
态 SOCKS 代 理 来 访问 它们 。 


为 了 在 用 户 客户 端 机 器 上 (在 Amazon 网 络 之 外 ) 通过 浏览 器 访问 
到 这 些 信 息 ， 用 户 需 要 通过 AWS 网 页 控制 台 对 Elastic MapReduce 管 理 
者 安全 组 进行 修改 ， 增 加 一 个 新 的 用 户 自 定义 TCP 规 则 将 客户 并 机 器 的 
IP 在 9 100 和 9 101 端 口上 进行 绑 定 即 可 。 








21.14 EMR 和 EC2 以 及 Apache Hive 的 比较 


对 于 EMR 的 一 个 弹性 的 蔡 代 方式 就 是 引入 多 个 Amazon EC2 节 点 ， 
并 将 Hadoop 和 Hive 安 装 在 一 个 定制 的 Amazon 机 器 映像 CAMI) P. X 
种 方式 使 用 户 可 以 更 好 地 对 Hadoop 和 Hive 的 版 本 和 配置 进行 控制 。 例 
如 ， 用 户 可 以 在 EMR 发 布 某 个 工具 最 新 版 本 之 前 尝试 使 用 其 新 版 本 。 


这 种 方式 的 一 个 缺点 是 ，EMR 发 布 的 定制 版 可 能 在 Apache Hive 发 
行 版 中 并 没有 包含 。 例 如 ， 目 前 Apache Hive 还 无 法 完全 支持 S3 文 件 系 
统 〈 请 参考 JIAR HIVE-2318) 。 对 于 Amazon S3 查 询 还 存在 一 个 优化 ， 
用 于 减少 初始 化 时 间 。 这 个 功能 只 包含 在 EMR Hive 中 。 通 过 增加 如 下 
配置 到 hive-site.xml 文 件 中 ， 可 以 开启 此 优化 : 





<property> 
<name>hive.optimize.s3.query</name> 
<value>true</value> 


<description> Improves Hive query performance for Amazon S3 queries 
by reducing their start up time </description> 
</property> 





同样 地 ， 也 可 也 在 Hive CLI 中 执行 如 下 命令 启用 此 功能 : 

还 有 一 个 例子 展示 的 是 ， 如 果 在 HDFS 或 S3 中 的 目录 结构 是 正确 的 
话 ， 那 么 可 以 通过 命令 自动 补 全 元 数据 存储 中 的 分 区 信息 。 当 外 部 处 理 
程序 生成 Hive 表 的 分 区 目录 时 ， 使 用 这 种 方式 补 全 元 数据 是 非常 方便 
的 。 通 过 如 下 命令 即 可 达到 这 个 效果 ， 其 中 emr_table 是 表 名 : 

下 面 是 一 个 创建 表 的 语句 ， 供 参考 : 








CREATE EXTERNAL TABLE emr_table(id INT, value STRING) 
PARTITIONED BY (dt STRING) 





LOCATION 's3n://example.hive.oreilly.com/tables/emr_table'; 


21.15 包装 


Amazon EMR 提 供 了 一 个 弹性 的 、 可 扩展 的 、 安 装配 置 简 单 的 方式 
来 搭建 一 个 Hadoop 和 Hive 集 群 ， 启 动机 器 就 可 以 执行 查询 。 对 于 存储 在 
S3 上 的 数据 同样 是 可 以 操作 的 。 尽 管 大 多 数 的 配置 已 经 为 用 户 设置 好 
了 ， 用 户 还 是 有 足够 的 灵活 的 方式 进行 一 些 目 定义 的 配置 。 





22% HCatalog 


22.1 介绍 


在 Hadoop 中 使 用 Hive 进 行 数据 处 理 ， 除 了 可 以 提供 一 种 类 SQL 的 语 
言 供 使 用 外 ， 还 提供 了 其 他 多 个 不 错 的 功能 。Hive 可 以 存储 元 数据 ， 这 
意味 着 用 户 不 需要 记 住 数据 的 模式 (schema) 信息 ， 同 时 ， 也 意味 着 用 
户 无 需 关 注 数据 实际 存储 在 哪里 ， 以 及 以 什么 样 的 存储 格式 进行 存储 
的 。 这 束 使 得 数据 生产 者 、 数 据 消费 者 和 数据 管理 者 之 间 相 分 离 。 数 据 
生产 者 可 以 往 数据 中 新 增 一 列 ， 而 不 会 破坏 数据 消费 者 们 的 数据 只 读 应 
用 。 数 气管 理 者 可 以 重 置 数据 来 修改 存储 格式 ， 而 无 需 修改 数据 生产 者 
或 者 数据 消费 者 的 应 用 。 


大 部 分 的 资深 Hadoop 用 尸 不 会 仅 使 用 一 种 工具 来 进行 数据 生产 和 数 
据 消 费 。 通 常 ， 用 户 都 会 以 如 下 工具 中 的 一 种 来 开始 使 用 Hadoop: 
Hive、Pig、MapReduce 或 者 其 他 工具 。 当 用 户 对 于 Hadoop 的 使 用 越 来 
越 深 入 后 ， 他 们 将 会 发 现 他 们 所 选择 的 工具 并 非 是 处 理 新 任务 的 最 优选 
择 。 对 于 刚 开 始 使 用 Hive 进 行 分 析 型 查询 的 用 户 来 说 ， 他 们 可 能 会 发 现 
在 进行 ETL 处 理 或 构建 数据 模型 时 使 用 Pig 会 更 好 。 而 对 于 从 Pig 入 手 的 
用 户 来 说 ， 他 们 可 能 会 发 现在 处 理 分 析 型 查询 的 时 候 使 用 Hive 会 更 好 。 


尽管 像 Pig 和 MapReduce 这 样 的 工具 是 不 需要 元 数据 的 ， 但 是 如 果 提 
供 了 元 数据 信息 的 话 也 是 有 好 处 的 。 共 部 同一 个 元 数据 库 可 以 使 用 尸 在 
多 种 工具 间 更 容易 地 共 孚 数据 。 使 用 MapReduce 或 者 Pig 加 载 和 归 一 化 数 
据 ， 然 后 使 用 Hive 来 进行 分 析 ， 这 样 的 工作 流 是 非常 第 见 的 。 当 所 有 的 
工具 共有 至 使 用 同一 个 元 数据 存储 时 ， 每 种 工具 的 用 户 都 可 以 并 即 访问 到 
由 其 他 工具 产生 的 数据 ， 而 无 需 其 他 加 载 或 者 转换 步 又 。 


HCatalog 的 存在 就 是 为 了 满足 这 些 需 要 的 。 其 可 以 使 Hive 的 元 数据 
存储 为 基于 Hadoop 的 其 他 工具 所 共用 。 其 为 MapRedcue 和 Pig 提 供 了 连 
接 堪 ， 这 样 用 户 就 可 以 使 用 那些 工具 ， 从 Hive 数 据 仓 库 中 读 取 和 写 入 数 
据 。 其 还 提供 了 一 个 命令 行 工 具 ， 便 于 没有 使 用 Hive 的 用 户 通过 Hive 
DDL 语 句 操 作 元 数据 存储 。 其 还 提供 了 一 个 消息 通知 服务 ， 这 样 对 于 
> 
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HCatalog 是 相对 独立 于 Hive 的 一 个 独立 的 Apache 项 目 。 其 是 Apache 
孵化 器 的 一 部 分 ， 大 多 数 的 Apache 项 目 都 是 从 这 个 旷 化 器 中 开始 的 。 其 
有 助 于 为 其 内 部 的 项 目 构建 社区 并 学 习 如 何 开 发 Apache 开 源 软件 。 在 写 
本 书 时 ， 最 新 的 版 本 是 HCatalog 0.4.0-incubating. 


这 个 版 本 适用 于 Hive 0.9、Hadoop 1.0 和 Pig 0.9.2. 


( 译 者 注 : HCatalog 目前 已 经 合并 到 Apache Hive 中 了 ， 在 Apache 
Hive 0.10.0 正 式 引 入 了 Hcatalog。) 


22.2 MapReduce 


22.2.1 ”读数 据 


MapReduce 使 用 Java 类 InputFormat 来 读 取 输入 数据 。 绝 大 多 数 情 况 
下 ， 这 些 类 会 直接 从 HDFS 中 读 取 数据 。InputFormat 的 一 些 实现 类 同样 
提供 了 从 HBase、 Cassandra 和 其 他 数据 源 读 取 数 据 的 功能 。InputFormat 
的 任务 是 双重 的 。 首 先 ， 其 决定 了 数据 是 如 何 划 分 成 数据 片 然后 为 
MapReduce 的 map 任 务 (task) 所 并 行 处 理 的 。 其 次 ， 其 提供 了 一 个 
RecordReader，MapReduce 使 用 这 个 类 来 从 输入 数据 源 中 读 取 记录 ， 然 
后 将 其 转换 成 键 和 值 来 供 map 任 务 (task) 进行 处 理 。 





HCatalog 提 供 了 一 个 HCatInputFormat 类 来 供 MapReduce 用 户 从 Hive 
的 数据 仓库 中 读 取 数 据 。 其 允许 用 户 只 读 取 需要 的 表 分 区 和 字段 。 同 时 
其 还 以 一 种 方便 的 列表 格式 来 展示 记录 ， 这 样 就 不 需要 用 户 来 进行 划分 
Ja 
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HCatInputFormat 实 现 了 Hadoop 0.20 API, tE yiz 
org.apache.hadoop. mapreduce， 而 不 是 Hadoop 0.18 的 
org.apache.hadoop.mapred API。 这 是 因为 其 需要 MapReduce (0.20) 
API 中 新 增 的 某 些 功能 。 这 意味 着 MapReduce 用 户 需 要 使 用 这 些 接 
口 来 和 HCatalog 进 行 交 互 。 不 过 ，Hive 所 需要 的 用 于 从 磁盘 读 取 数 
据 的 InputFormat 也 可 以 是 旧 的 mapred 下 的 接口 实现 的 。 因 此 如 果 用 
户 当 前 使 用 的 数据 的 格式 是 使 用 MapReduce InputFormat 的 话 ， 那 么 
就 可 以 使 用 HCatalog。InputFormat 这 个 类 在 新 接口 mapreduce API 中 
是 一 个 类 ， 而 在 旧 接 口 mapred API 中 是 一 个 接口 ， 不 过 前 面 都 是 将 
其 作为 类 进行 引用 的 。 


在 初始 化 HCatInputFormat 时 ， 首 先 有 要 做 的 事情 就 是 指定 要 读 取 的 
表 。 通 过 创建 一 个 InputJobInfo 类 ， 然 后 指定 数据 库 、 表 和 分 区 过 滤 条 件 
就 可 以 达到 这 个 目地 。 








Z * 
Initializes a new InputJobInfo 
for reading data from a table. 
@param databaseName the db name 
@param tableName the table name 
@param filter the partition filter 
*/ 


public static InputJobInfo create(String databaseName, 
String tableName, 
String filter) { 


} 





databaseName 表 示 表 所 在 的 Hive 数 据 库 〈 或 模式 schema) 。 如 果 这 
个 值 为 nmul， 那 么 就 会 使 用 默认 的 名 为 default 的 数据 库 。tableName 表 示 
将 要 读 取 的 表 的 表 名 。 它 必须 是 非 null 的 ， 而 且 必 须 是 Hive 中 实际 存在 
的 一 张 表 。filter 表 示 用 户 期 望 读 取 哪 些 分 区 下 的 数据 。 如 果 这 个 值 为 
null 的 话 ， 那 么 将 读 取 整个 表 。 这 些 需 要 特别 小 心 ， 因 为 读 取 一 张大 表 
的 所 有 分 区 将 会 导致 扫描 大 量 的 数据 。 


过 滤器 的 格式 类 似 于 类 SQL 的 where 语 名 部 分 。 这 里 应 该 只 允许 指 
定 分 区 字段 。 人 例如， 假设 要 读 取 的 分 区 表 的 分 区 字段 名 为 datestamp， 那 
ZA Wye as A HERZL AF datestamp = "2012-05-26" 这 样 的 格式 。 过 滤器 可 
以 包含 有 =、>、>=、<、<=、and 和 or 操作 符 。 


对 于 Hive v0.9.0 和 之 前 的 版 本 ， 在 ORM 映 射 层 存在 一 个 bug， 会 导 
致 对 于 >、>=、< 或 <= 这 样 的 过 滤 条 件 执行 失败 。 








| a a 
nt 提示 


可 以 通过 https://issues.apache.org/jira/browse/HIVE-2084 获 取 
HIVE-2084.D2397.1.patch 并 将 这 个 patch 打 到 用 户 当 前 的 Hive 版 本 
上 上， 然后 重新 编译 ， 就 可 以 解决 这 个 问题 。 这 确实 会 存在 一 些 风 
险 ， 不 过 这 取决 于 用 户 是 如 何 部 署 Hive 的 。 在 这 个 JIRA 下 可 以 但 看 


到 一 些 讨论 信息 。 


对 于 InputJobInfo 实 例 和 包含 MapReduce 任 务 (job〉 的 Job 实 例 ， 可 
通过 HCatInputFormat 的 setInput 将 其 传递 给 HCatInputFormat。 








Job job = new Job(conf, "Example"); 
InputJobInfo inputInfo = InputJobInfo.create(dbName, inputTableName, filter)); 


HCatInputFormat.setInput(job, inputInfo); 


map 任 务 (task) 需要 指定 值 的 类 型 是 HCatRecord 的 。 键 的 类 型 并 
不 重要 ， 因 为 HCatalog 并 不 会 将 键 提 供给 map 任 务 (task) 。 例 如 ， 一 个 
通过 HCatalog 读 取 数 据 的 map 任 务 (task) 可 能 是 如 下 形式 的 : 


public static class Map extends 
Mapper<wWritableComparable, HCatRecord, Text, Text> { 


@Override 

protected void map( 

WritableComparable key, 

HCatRecord value, 

org.apache.hadoop.mapreduce.Mapper<wWritableComparable, 
HCatRecord, Text, HCatRecord>.Context context) { 


ath 
} 








HCatRecord 是 HCatalog 提 供 的 一 个 用 于 和 记录 交互 的 类 。 其 提供 了 
简单 的 get 和 set 方 法 ， 可 以 通过 位 置 或 者 名 称 来 获取 记录 。 如 果 是 通过 
列 名 获取 字段 内 容 的 话 ， 那 么 就 必须 提供 表 的 模式 (schema) 信息 ， 
为 每 个 独立 的 HCatRecord 都 不 会 保存 一 份 这 个 表 模 式 (schema) 的 引用 
信息 。 可 以 通过 HCatInputFormat.getOutputSchema() 方 法 获取 到 表 模 式 信 
恩 。 因 为 Java 不 允许 按照 返回 值 类 型 进行 方法 重 载 ， 对 于 不 同 的 数据 类 
型 都 需要 提供 其 相应 的 get 和 set 方 法 。 这 些 方法 使 用 的 是 类 型 对 象 而 非 
标量 类 型 〈 也 就 是 说 使 用 java.lang.Integer 这 样 的 Java 对 象 ， 而 不 是 像 int 
这 样 的 标量 ) 。 这 就 允许 将 null 作 为 一 个 值 来 表示 。 同 时 还 提供 了 对 
Java 对 象 的 get 和 set 方 法 实现 。 








// get the first column, as an Object and cast it to a Long 
Long cnt = record.get(0); 


// get the column named "cnt" as a Long 
Long cnt = record.get("cnt", schema); 


// set the column named "user" to the string "fred" 
record.setString("user", schema, "fred"); 








通常 程序 不 需要 读 取 一 个 输入 的 所 有 字段 内 容 。 在 这 种 情况 下 ， 尺 
早 尽 快 地 去 除 掉 不 需要 的 字段 很 有 意义 。 这 对 于 像 RCFile 这 样 的 列 式 存 
储 更 是 有 益 的 ， 越 早 过 滤 抒 不 需要 的 字段 就 意味 着 从 磁盘 读 取 更 少 的 数 
据 。 这 可 以 通过 传递 一 个 描述 所 需 字 段 的 模式 来 完成 。 这 个 过 程 必须 在 
job 配置 时 间 内 完成 。 如 下 这 个 例子 将 配置 用 户 的 job 只 读 取 2 个 字段 ， 字 
段 名 分 别 是 user 和 url: 








HCatSchema baseSchema = HCatBaseInputFormat.getOutputSchema(context); 
List<HCatFieldSchema> fields = new List<HCatFieldSchema>(2) ; 


fields.add(baseSchema.get("user")); 
fields.add(baseSchema.get("url")); 
HCatBaseInputFormat.setOutputSchema( job, new HCatSchema(fields) ); 





22.2.2 SB 


和 读数 据 类 似 ， 写 数据 时 ， 需 要 指定 数据 库 名 和 要 写 入 的 表 的 表 
名 。 如 果 要 写 入 的 表 是 分 区 表 而 只 想 写 入 其 中 一 个 分 区 时 ， 那 么 还 要 指 
定 要 写 入 的 这 个 分 区 的 分 区 名 : 








* Initializes a new OutputJobInfo instance for writing data from a table. 

* @param databaseName the db name 

* @param tableName the table name 

* @param partitionValues The partition values to publish to, can be null or empty Ma 


p 
*/ 


public static OutputJobInfo create(String databaseName, 
String tableName, 
Map<String, String> partitionValues) { 





databaseName 表 示 表 所 在 的 指定 的 Hive 数 据 库 〈 或 模式 ) 的 名 称 。 

如 果 这 个 值 为 null 的 话 ， 那 么 就 会 使 用 默认 的 default 数 据 库 。 而 
tableName 表 示 的 是 要 写 入 的 目标 表 名 。 表 名 必须 是 非 null 的 ， 而 且 应 该 
是 Hive 中 实际 存在 的 一 个 表 。partitionValues 表 示 用 户 期 望 创建 的 分 区 名 
称 。 如 果 需 要 写 入 到 特定 的 某 个 分 区 的 话 ， 那 么 这 个 map 必 须 明 确 地 指 
定 这 个 分 区 。 例 如 ， 如 果 这 个 表 具 有 二 级 分 区 的 话 ， 那 么 在 map 中 必须 
要 指定 这 两 级 分 区 字段 。 对 于 非 分 区 表 ， 这 个 字段 可 以 省 略为 null。 当 
以 这 种 方式 显 式 指定 分 区 后 ， 那 么 分 区 字段 束 没 必要 保存 在 数据 文件 中 
了 。 如 果 数 据 文件 中 包含 了 分 区 字段 的 内 容 ， 那 么 HCatalog 在 将 数据 写 
入 到 Hive 前 会 将 这 些 字 段 过 小 丢弃 挥 ， 因 为 在 Hive 中 是 不 会 在 数据 中 保 
存 分 区 字段 内 容 的 。 


同时 问 多 个 分 区 写 入 数据 是 允许 的 ， 这 也 就 是 所 谓 的 动态 分 区 ， 
为 记录 是 在 执行 时 动态 划分 到 不 同 分 区 的 。 如 果 要 使 用 动态 分 区 ， 那 么 
分 区 字段 的 值 必 须 存在 于 数据 中 。 例 如 ， 如 果菜 张 表 是 按照 字 
段 “datestamp” 进 行 划 分 的 ， 那 么 这 个 字段 必须 存在 于 reducer 端 的 数据 收 
集 右 中 。 这 是 因为 HCatalog 将 读 取 分 区 字段 来 确定 将 数据 写 入 到 哪个 分 
区 去 。 在 写 数据 的 过 程 中 ， 之 前 的 分 区 字段 中 那些 列 的 值 将 会 被 丢弃 

















掉 。 


一 旦 创建 好 一 个 OutputJobInfo 对 象 ， 然 后 就 可 以 通过 静态 方法 
setOutput 将 其 传递 给 HCatOutputFormat: 


OutputJobInfo outputInfo = OutputJobInfo.create(dbName, outputTableName, null)); 
HCatOutputFormat.setOutput(job, outputInfo); 


当 HCatOutputFormat 写 数据 时 ， 输 出 的 键 的 数据 类 型 并 不 重要 ， 而 
值 的 类 型 必须 是 HCatRecord。 可 以 在 reducer 阶 段 写 数据 ， 或 者 对 于 只 有 
map 过 程 的 任务 来 说 在 map 阶 段 写 数据 。 


将 上 面 的 内 容 放 到 同一 个 例子 中 。 下 面 的 代码 将 会 从 表 名 为 
rawevents 的 表 中 读 取 时 间 惟 为 20120531 的 分 区 ， 然 后 对 每 个 用 户 计 算 对 
应 的 事件 个 数 ， 并 将 结果 最 终 写 入 到 表 cntd 中 : 








public class MRExample extends Configured implements Tool { 


public static class Map extends 
Mapper<wWritableComparable, HCatRecord, Text, LongWritable> { 


protected void map(WritableComparable key, 
HCatRecord value, 
Mapper<WritableComparable, HCatRecord, 
Text, Longwritable>.Context context) 
throws IOException, InterruptedException { 
// Get our schema from the Job object. 
HCatSchema schema = HCatBaseInputFormat.getOutputSchema(context); 
// Read the user field 
String user = value.get("user", schema); 
context.write(new Text(user), new LongWritable(1)); 
} 
} 


public static class Reduce extends Reducer<Text, Longwritable, 
WritableComparable, HCatRecord> { 


protected void reduce(Text key, Iterable<Longwritable> values, 
Reducer<Text, LongwWritable, 
WritableComparable, HCatRecord>.Context context) 
throws IOException ,InterruptedException { 


List<HCatFieldSchema> columns = new ArrayList<HCatFieldSchema>(2); 
columns.add(new HCatFieldSchema("user", HCatFieldSchema.Type.STRING, "")); 
columns.add(new HCatFieldSchema("cnt", HCatFieldSchema.Type.BIGINT, "")); 
HCatSchema schema = new HCatSchema(columns); 


long sum = @; 

Iterator<Intwritable> iter = values.iterator(); 
while (iter.hasNext()) sum += iter.next().getLong(); 
HCatRecord output = new DefaultHCatRecord(2); 
record.set("user", schema, key.toString()); 


} 


record.setLong("cnt", schema, sum); 
context.write(null, record); 


} 


public int run(String[] args) throws Exception { 





Job job = new Job(conf, "Example"); 


// Read the "rawevents" table, partition "20120531", in the default 


// database 


HCatInputFormat.setInput(job, InputJobInfo.create(null, "rawevents", 


"datestamp='20120531'")); 
job.setInputFormatClass(HCatInputFormat.class); 
job.setJarByClass(MRExample.class); 
job.setMapperClass(Map.class); 
job.setReducerClass(Reduce.class); 
job.setMapOutputKeyClass(Text.class); 
job.setMapOutputValueClass(LongwWritable.class); 
job.setOutputKeyClass(WritableComparable.class); 
job.setOutputValueClass(DefaultHCatRecord.class); 

// Write into "cntd" table, partition "20120531", in the default 
HCatOutputFormat.setOutput (job 

OutputJobInfo.create(null, "cntd", "ds=20120531")); 
job.setOutputFormatClass(HCatOutputFormat.class); 
return (job.waitForCompletion(true) ? © : 1); 


} 


public static void main(String[] args) throws Exception { 
int exitCode = ToolRunner.run(new MRExample(), args); 
System.exit(exitCode); 


} 


database 


22.3 MET 


因为 HCatalog 使 用 的 是 Hive 的 元 数据 存储 ， 所 以 Hive 用 户 是 不 需要 
使 用 其 他 额外 的 工具 来 访问 元 数据 的 。 对 于 Hive 用 户 ， 像 以 前 一 样 使 用 
Hive 命 令 行 工 具 就 可 以 了 。 不 过 ， 对 于 那些 不 是 Hive 用 户 的 HCatalog 用 
户 来 说 提供 了 一 个 被 称 为 hcat 的 命令 行 工 具 。 这 个 工具 和 Hive 的 命令 
T LRA ERM. 两 者 最 大 的 不 同 是 其 只 接受 不 会 产生 MapReduce 任 务 
(job)〉 的 命令 。 这 意味 着 其 可 以 文 持 大 部 4 分 的 DDL (数据 定义 语言 ， 
用 于 定义 数据 的 操作 ， 如 创建 表 这 样 的 操作 〉 语句: 


命令 行文 持 表 22-1 中 所 示 的 这 些 操作 。 


表 22-1 hcat 命 令 行 选项 


交 生 包 售 有 DDL 语 向 的 及 本 六 人 




















为 创建 的 表 指定 组 
为 创建 的 表 指定 目录 权限 
将 键 - 值 对 以 Java 系 统 属性 的 形式 传递 给 HCatalog 




















( 译 者 注 ， 原 书 中 这 个 表 描 述 有 误 ， 本 表 是 修正 后 的 内 容 。) 


HCatalog 命 令 行 不 文 持 如 下 这 些 SQL 操 作 : 


SELECT 

CREATE TABLE AS SELECT 
INSERT 

LOAD 

ALTER INDEX REBUILD 
ALTER TABLE CONCATENATE 
ALTER TABLE ARCHIVE 
ANALYZE TABLE 

EXPORT TABLE 

IMPORT TABLE 


22.4 ”安全 模型 


HCatalog 并 没有 使 用 Hive 的 授权 模型 。 不 过 ，HCatalog 的 用 户 认 证 
功能 和 Hive 是 完全 相同 的 。Hive 试 图 实现 传统 的 数据 库 授权 模型 。 不 
过 ， 这 在 Hadoop 和 生态 系统 中 有 一 些 限 制 。 


因为 是 可 以 直接 访问 文件 系统 来 获取 辰 层 数据 的 ， 所 以 Hive 的 权限 
控制 是 有 限 的 。 通 过 将 Hive 所 对 应 的 所 有 文件 和 文件 夹 的 权限 设置 为 执 
行 Hive 任 务 的 用 户 所 有 这 样 的 方式 可 以 解决 这 个 问题 。 通 过 这 种 方式 可 
以 防止 其 他 用 户 读 取 或 者 写 入 数据 ， 除 了 通过 Hive 进 行 操作 。 不 过 ， 这 
样 有 一 个 缺点 ， 就 是 Hive 中 所 有 的 UDF 都 需要 以 超级 用 户 来 执行 ， 因 为 
在 Hive 进 程 中 会 执行 这 些 UDF。 因 此 ， 它 们 都 需要 数据 仓库 中 对 所 有 文 
件 的 读 和 写 权限 。 


避免 这 个 问题 的 唯一 方式 简单 地 说 就 是 要 声明 UDF 为 特权 操作 ， 而 
且 只 允许 有 访问 权限 的 那些 人 创建 UDF， 尽 管 目 前 尚 无 机 制 强制 这 么 
做 。 在 Hive 中 这 可 能 是 可 以 接受 的 ， 但 是 在 Pig 和 MapReduce 这 些 用 户 产 
生 代码 非常 多 的 应 用 中 显然 就 很 难 接受 了 。 


为 了 解决 这 个 问题 ，HCatalog 使 用 和 存储 层 相 同 的 权限 进行 权限 控 
制 。 对 于 存储 在 HDFS 中 的 数据 ， 这 意味 着 HCatalog 将 使 用 包含 有 数据 
的 文件 夹 和 文件 的 属性 中 的 用 户 权 限 来 判断 是 否 有 权限 进行 访问 。 如 果 
有 权限 ， 那 么 其 将 被 赋予 相同 的 元 数据 访问 权限 。 例 如 ， 如 果 茶 个 用 户 
a ae 
又 限 。 


这 样 做 的 优点 是 这 确实 是 安全 的 ， 很 难 通过 修改 抽象 层 来 推翻 系统 
权限 控制 。 缺 点 是 ，HDFS 所 文 持 的 安全 模型 要 比 传统 数据 库 弱 得 多 。 
特别 是 ， 如 字段 级 别 的 字段 功能 通过 这 种 模式 是 无 法 提供 的 。 同 时 ， 用 
a A a 
I 权限 。 


















































22.5 ”架构 


正如 前 面 所 解释 的 ，HCatalog 对 于 Pig 和 MapReduce 使 用 它们 的 标准 
输入 和 输出 机 制 。HCatLoader 和 HCatStorer 是 相当 简单 的 ， 因 为 它们 使 
用 的 分 别 就 是 HCatInputFormat 和 HCatOutputFormat。 这 2 个 MapReduce 
类 很 大 一 部 分 工作 就 是 将 MapReduce 和 Hive 元 数据 存储 结合 起 来 。 


一 口 口 





图 22-1 展示 的 是 HCatalog 的 架构 图 。 


HCatLoader HCatLoader 
HCatInputFormat | HCatinputFormat | CLI 
Hive 元 数据 操作 接口 




















Hive 
元 数据 存储 
Thri 代 服务 


图 22-1 HCatalog 架 构图 


HCatInputFormat 通 过 和 Hive 的 元 数据 存储 进行 通信 来 获取 要 读 取 的 
表 和 分 区 的 信息 。 这 包括 获取 表 的 模式 ， 也 包括 获取 每 个 分 区 的 模式 。 
对 于 每 个 分 区 ， 还 要 确定 对 应 的 用 于 读 取 该 分 区 数据 的 实际 的 
InputFormat 和 SerDe。 这 些 会 被 收集 在 一 起 ， 然 后 和 所 有 的 分 区 的 数据 
划分 一 起 ， 返 回 一 个 mputSplits 对 象 列 表 。 





同样 地 ， 对 于 每 个 底层 的 mputFormat 都 会 有 对 应 的 RecordReader 用 
于 对 划分 进行 解码 。 然 后 HCatRecordReader 会 通过 和 分 区 对 应 的 SerDe 
将 来 目 底 层 的 RecordReader 的 值 转化 成 HCatRecord。 这 个 过 程 中 包含 有 
为 每 个 分 区 补充 对 应 缺少 的 列 。 也 融 是 说 ， 当 表 模 式 中 包含 有 分 区 模式 


中 不 存在 的 字段 时 ， 那 么 就 会 向 HCatRecord 中 增加 缺少 的 列 且 值 为 
nul。 同 时 ， 如 果 用 户 明确 指定 需要 其 中 部 分 字段 的 话 ， 那 么 这 时 惑 会 
去 除 掉 不 需要 的 字段 。 


HCatOutputFormat 也 会 和 Hive 元 数据 存储 进行 通信 ， 以 确认 写 入 的 
文件 格式 和 模式 。 尽 管 HCatalog 当 前 只 文 持 表 指定 的 存储 格式 ， 不 过 无 
需 为 每 个 分 区 都 打开 不 同 的 OutputFormat。 底 层 的 OutputFormat 已 经 通 
过 HCatOutputFormat 进 行 封 狼 了。 对 于 每 个 分 区 都 会 创建 一 个 封装 了 底 
层 RecordWriter 的 RecordWriter， 尽 管 它们 都 使 用 相同 的 SerDe 来 写 这 些 
新 记录 。 当 所 有 的 分 区 都 写 完 后 ，HCatalog 会 使 用 一 个 OutputCommitter 
来 将 元 数据 信息 写 入 到 元 数据 存储 中 。 











3 Bp 


全 球 有 很 多 公司 和 组 织 使 用 Hive。 本 章 提 供 的 案例 将 详细 介绍 有 趣 
的 和 独特 的 使 用 场景 和 我 们 面临 过 的 问题 ， 以 及 如 何 使 用 Hive 这 个 独特 
的 PB 级 别 数 据 数据 仓库 来 解决 这 些 问题 。 


23.1 m6d.com(Media6Degrees) 
23.1.1 M 6D 的 数据 科学 ， 使 用 Hive 和 R 


Ori Stitelman 


在 本 案例 研究 中 ， 我 们 考察 了 m6d 的 数据 科学 团队 使 用 Hive 对 综合 
的 海量 数据 提取 信息 的 众多 方法 中 的 一 种 。m6d 是 一 家 面 癌 展示 广告 的 
公司 。 我 们 所 扮演 的 角色 就 是 通过 创建 定制 的 机 器 学 习 算法 来 为 广告 宣 
传 活动 寻找 最 好 的 新 前 景 。 这 些 算法 是 用 于 一 个 交付 引擎 之 上 的 ， 其 被 
绑 定 到 无 数 个 实时 竞价 交易 ， 从 而 提供 基于 用 户 客 户 端 行为 的 和 按照 网 
络 地 理 位 置 提供 广告 条 展示 的 方式 。m5d 广 告 展示 引 敬 每 天 都 涉及 到 数 
十 亿 的 竞价 次 数 和 进行 数 千 万 次 的 广告 展示 。 目 然 ， 这 样 的 一 个 系统 会 
产生 大 量 的 数据 。 由 本 公司 的 广告 展示 交付 系统 产生 的 大 部 分 的 记录 是 
存储 在 m6d 公 司 的 Hadoop 集 群 中 的 ， 也 因此 ，Hive 是 我 们 的 科学 家 对 这 
些 日 志 进 行 数据 分 析 的 主要 工具 。 


Hive 为 我 们 的 科学 家 团队 提供 了 提取 和 处 理 大 量 数据 的 一 种 方式 。 
事实 上 ， 其 允许 我 们 分 析 在 使 用 Hive 之 前 无 法 进行 有 效 分 析 的 海量 数 
据 ， 并 对 其 进行 样本 抽取 和 数据 聚合 。 尽 管事 实 上 Hive 人 允许 我 们 以 比 之 
前 快 很 多 倍 的 速度 来 访问 海量 数据 ， 但 其 并 不 能 改变 这 样 一 个 事实 ， 那 
就 是 ， 以 前 我 们 所 熟悉 的 数据 科学 家 并 不 能 以 所 产生 的 所 有 数据 作为 样 
本 数据 进行 样本 分 析 ， 也 就 是 对 全 局 数据 进行 分 析 而 不 是 抽样 分 析 。 总 
之 ，Hive 为 我 们 提供 了 一 个 提取 海量 数据 的 很 好 的 工具 。 不 过 ， 数 据 科 
学 家 在 数据 科学 领域 使 用 的 方法 工具 箱 、 或 在 统计 学 习 领域 所 使 用 的 方 
She cece sD Gone a tea er 


目前 已 经 有 了 或 者 正在 开发 各 种 各 样 的 软件 包 ， 来 对 海量 数据 集 进 
行 启发 式 的 和 非 启 发 式 的 知识 学 习 。 这 些 软 件 中 有 一 些 是 独立 的 软件 实 
现 ， 例 如 Vowpal Wabbit 和 BBR， 而 其 他 一 些 是 基于 像 HadoopMahout 这 
样 的 大 型 基础 架构 或 其 他 众多 的 针对 R 的 “海量 数据 ”处 理 包 进行 实现 
的 。 这 些 算法 一 部 分 是 利用 并 行 编 程 方 法 实现 的 ， 而 其 他 则 是 依赖 于 不 
同 的 方法 来 实现 可 伸缩 性 的 。 


我 们 团队 的 几 个 数据 科学 家 对 于 统计 学 习 使 用 的 主要 工具 是 R。R 









































提供 了 众多 的 包 来 文 持 众 多 的 统计 算法 。 更 重要 的 是 ， 我 们 对 于 R 具 有 
很 多 的 经 验 ， 我 们 知道 其 是 如 何 执行 的 ， 并 了 解 它们 的 特性 ， 而 且 非 党 
熟悉 其 技术 文档 。 不 过 ，R 的 一 个 主要 缺点 是 ， 默 认 情 况 下 其 需要 将 所 
有 的 数据 集 载 入 到 内 存 中 。 这 是 一 个 主要 的 限制 。 还 有 就 是 ， 一 旦 R 中 
的 数据 比 可 以 载 入 内 存 的 数据 要 大 时 ， 系 统 就 会 出 现 内 存 交 换 ， 导 致 系 
统 抖动 并 显著 降低 处 理 速度 口 。 


我 们 并 不 倡导 不 使 用 可 以 使 用 的 新 工具 。 很 明显 ， 利 用 好 这 些 可 伸 
缩 技 术 是 非常 重要 的 ， 但 是 我 们 只 能 有 那么 多 的 时 间 对 新 技术 进行 调 碍 
和 测试 。 所 以 现在 我 们 只 剩 下 一 个 选择 ， 要 么 对 数据 进行 采样 来 适应 我 
们 更 熟悉 的 工具 ， 要 么 使 用 可 以 用 于 海量 数据 分 析 的 新 工具 。 如 果 我 们 
决定 使 用 新 工具 的 话 ， 那 么 我 们 束 可 以 分 析 更 多 的 数据 ， 因 此 也 就 可 以 
降低 我 们 的 估算 误差 。 这 是 非常 有 吸引 力 的 。 对 于 那些 要 求 结果 精确 的 
情况 来 说 这 种 方式 是 非常 吸引 人 的 。 不 过 ， 学 习 使 用 新 工具 需要 时 间 成 
本 ， 也 因 需 要 时 间 学 习 新 工具 而 不 能 够 去 解决 其 他 对 公司 有 价值 的 问 
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们 手头 上 的 旧 工 具 进行 分 析 。 不 过 这 样 我 们 需要 处 理 一 定 的 精度 损失 ， 
会 增加 我 们 的 估算 误 着 。 不 过 ， 这 样 我 们 就 能 以 我 们 熟悉 的 工具 来 进行 
数据 处 理 了 。 因 此 也 惑 能 保持 使 用 我 们 当前 的 工具 箱 ， 不 过 会 丢失 一 些 
精准 度 。 然 而 ， 并 非 只 有 这 两 种 可 行 的 方法 。 在 本 案例 研究 中 ， 我 们 推 
荐 一 种 既 能 够 保持 现 有 工具 箱 的 功能 ， 同 时 又 能 在 使 用 更 大 的 样本 数据 
集 或 整个 数据 集 时 保证 计算 精度 或 减 小 误差 的 方式 。 


图 23-1 展 示 了 为 泉 个 广告 排名 设计 的 算法 得 出 的 值 的 分 布 情况 。 更 
高 的 分 数 表示 有 具有 更 高 概率 的 转换 。 本 图 清楚 地 表明 ， 较 高 分 数 的 转化 
率 要 比较 低 分 数 段 的 转化 率 低 。 也 就 是 ， 分 数 在 1 以 上 的 比分 数 在 0.5 和 
1 之 间 的 转化 率 要 低 。 考 虑 到 茶 些 活动 只 有 目标 比例 非常 小 的 用 户 群 ， 
因此 具有 最 好 前 景 的 是 最 顶端 的 得 分 者 。 
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图 23-1 转换 率 和 得 分 的 概率 


图 23-1 中 这 条 表示 分 数 和 转换 率 之 间 关 系 的 曲线 是 使 用 统计 编程 包 
R 中 的 广义 相 加 模型 (GAM) [生成 的 。 这 里 就 不 对 GAM 进 行 详细 的 
介绍 了 。 这 个 案例 研究 的 目的 可 以 认为 是 一 个 黑 盒 ， 其 可 以 预测 出 每 个 
分 数 的 转换 率 。 浏 览 器 则 可 以 根据 预测 的 转换 率 重 新 进行 排名 ， 这 样 ， 
预测 的 转换 率 就 变 成 了 新 的 分 数 。 


可 以 通过 下 面 的 方式 来 产生 新 的 排名 。 首 先 ， 需 要 为 每 个 浏览 需 提 
取 分 数 ， 然 后 在 设 定 的 一 段 时 间 内 跟踪 它们 ， 例 如 5 天 ， 并 记录 下 它们 
所 需 的 动作 ， 然 后 进行 转换 。 假 设 Hive 中 有 张 名 为 scoretable 的 表 ， 其 有 具 
有 表 23-1 所 示 的 信息 ， 并 按照 date 和 offer 进 行 分 区 。 


4223-1 样 例 表 scoretable 中 的 字段 信息 


[ES 
ee 


convert |int “| 转换 的 变量 是 一 个 二 进 制 变量 ， 其 值 为 1， 如 果 独 立 浏览 在 随后 5 天 
内 执行 了 指定 的 动作 ， 有 反之 如 果 没 有 执行 ， 则 其 信 为 0 



























































浏览 被 赋予 特定 分 数 的 日 期 


下 面 这 个 查询 语句 可 以 用 于 从 表 scoretable 中 抽取 一 组 数据 ， 用 于 在 
R 中 生成 GAM 曲 线 ， 来 预测 前 面 所 述 表 中 不 同 级 别 分 数 的 预测 转换 率 : 





SELECT score, convert 

FROM scoretable 

WHERE date >= (...) AND date <= (..) 
AND offer = (...); 

1.2347 0 

3.2322 1 

0.0013 0 

0.3441 0 





然后 通过 如 下 代码 将 这 些 数据 加 载 到 R 中 ， 再 使 用 前 面 所 提 的 表 的 
Ba AE NC POM Fe FRR HH k: 


library(mgcv) 





gi=gam(convert~s(score), family=binomial, data=[data frame name] ) 


这 种 方式 存在 一 个 问题 ， 那 就 是 只 能 使 用 有 限 儿 天 的 数据 来 进行 
析 。 因 为 一 旦 使 用 的 数据 集 太 大 ， 甚至 只 要 取 稍 ARIS EAMES 
导致 R 无 法 稳定 工作 。 此 外 ， 如 果 要 处 理 3 天 的 数据 量 ， 每 次 执行 都 需要 
10 分 钟 的 时 间 进 行 初始 化 。 因 此 ， 对 于 一 个 的 计 分 算法 ，3 天 的 数据 对 
于 大 约 300 个 竞价 分 析 来 说 大 约 需要 消耗 50 个 小 时 。 


使 用 一 个 稍微 不 同 的 方式 ， 通 过 简单 地 从 Hive 中 提取 数据 ， 并 利用 








mgcv 中 提供 的 gam 函 数 的 允许 频率 权重 的 功能 ， 同 样 的 分 析 可 以 使 用 更 
多 的 数据 ， 获 取 更 多 的 信息 ， 而 执行 速度 可 以 更 快 。 通 过 在 Hive 中 获取 
分 数 的 最 近 近 似 值 ， 并 为 每 个 最 近 近 似 值 估算 一 个 频率 权重 ， 通 过 
GROUP BY 语句 进行 转换 组 合 。 这 是 处 理 大 数据 集 的 通用 方式 ， 而 且 这 
里 面 并 不 会 因为 四 侈 五 入 近似 关系 导致 结果 信息 的 不 准确 ， 因 为 没有 理 
由 认为 ， 个 体 分 数 间 相 差 0.001 会 有 任何 的 不 同 。 如 下 这 个 查询 语句 将 
产生 这 样 一 个 数据 集 : 














SELECT round(score,2) as score,convert,count(1) AS freq 
FROM scoretable 
WHERE date >= [start.date] and date <= [end.date] and offer = [chosen.offer] 
GROUP BY round(score,2),convert; 











这 种 方式 产生 的 结果 数据 集 比 之 前 那 种 没有 使 用 频率 权重 的 方式 产 
生 的 数据 集 要 小 得 多 。 事 实 上 ， 每 个 提供 的 初始 数据 集 都 含有 数 百 万 
条 记录 ， 而 这 个 新 数据 集 相 对 每 个 提供 的 数据 集 缩小 到 了 6 500 条 。 这 
样 可 以 通过 如 下 的 命令 将 新 数据 集 载 入 到 R 中 并 产生 新 的 GAM 结 果 : 


library(mgcv) 
g2=gam(convert~s(score), family=binomial, weights=freq, 





data=[frequency weight data frame name] ) 


前 面 对 于 仅仅 3 天 的 数据 每 份 提供 的 数据 集 创建 GAM 就 需要 10 分 钟 
的 时 间 ， 而 后 者 使 用 频率 权重 的 方式 可 以 在 10 秒 钟 左右 处 理 基于 7 天 的 
数据 的 GAM 计 算 。 因 此 ， 通 过 使 用 频率 权重 ， 对 于 300 个 估价 ， 使 用 之 
前 的 方式 需要 50 小 时 ， 而 使 用 新 的 方法 后 只 需要 50 秒 。 同 时 增加 的 速度 
也 允许 使 用 超过 两 倍 的 数据 获得 更 加 精确 的 预测 转换 概率 。 总 之 ， 频 率 
权重 方式 可 以 在 很 少 的 时 间 内 获得 更 精确 的 GAM 预 测 估 算 值 。 


在 当前 的 案例 研究 中 ， 我 们 展示 了 如 何 通过 对 连续 变量 取 近 似 值 和 
使 用 频率 权重 进行 分 组 ， 我 们 既 可 以 通过 使 用 更 多 的 数据 获得 更 精确 的 
估 值 ， 叉 能 消耗 更 少 的 计算 资源 ， 最 终 可 以 最 快 地 进行 估算 。 这 个 例子 
只 展示 了 只 有 单一 功能 ， 按 照 分 数 计 算 的 模型 。 一 般 来 说 ， 这 种 方式 适 
用 于 低 数 据 特性 或 者 较 大 数据 量 的 稀 琉 特性 。 上 述 的 方法 可 以 扩展 到 到 
高 维 问题 ， 但 需要 使 用 其 他 一 些小 技巧 。 处 理 高 维 问题 的 一 个 方法 就 古 
对 变量 或 者 特性 进行 分 桶 ， 转 换 成 二 进 制 变 量 后 ， 再 使 用 GROUP BY 进 
行 查询 ， 并 对 这 些 特性 计算 频率 权重 。 然 而 ， 随 着 功能 数量 的 增长 ， 这 











些 功 能 特性 并 不 稀 政 ， 表 使 用 这 种 方式 几乎 就 没有 什么 价值 了， 这 时 就 
需要 寻找 其 他 的 解决 办 法 ， 或 者 是 可 以 处 理 这 种 大 数据 集 的 工具 。 


23.1.2 M6D UDF 伪 随机 
David Ha 和 Rumit Patel 


对 数据 进行 排序 然后 获取 最 大 的 N 个 值 ， 这 种 需求 很 直截了当 。 用 
户 对 整个 数据 集 基于 某 些 标准 进行 排序 ， 然 后 限制 结果 集 为 N 条 。 但 有 
些 时 候 需 要 对 元 素 进行 分 组 ， 然 后 保留 每 个 分 组 中 的 排序 后 的 前 N 条 记 
录 。 例 如 ， 计 算 每 名 歌词 艺术 家 的 排名 前 10 的 歌曲 ， 或 者 按照 商品 类 别 
和 国家 得 到 最 畅销 的 前 100 种 商品 。 很 多 的 数据 库 平台 都 提供 了 一 个 名 
为 rank ©) 的 函数 ， 其 适用 于 这 些 使 用 场景 。 在 Hive 中 我 们 可 以 通过 实 
现 用 户 自 定义 函数 来 达到 同样 的 目的 。 我 们 将 这 个 函数 命名 为 
p_rank()， 这 样 可 以 和 Hive 中 使 用 的 rank() 有 所 区 别 。 


假设 我 们 有 如 表 23-2 所 示 的 商品 销售 数据 ， 我 们 希望 但 看 按照 类 别 
和 国家 的 前 3 名 畅销 的 商品 : 


4623-2 样 例 表 p_rank_demo 中 的 数据 内 容 


movies chewblanca 100 
movies war Stars iv 150 





























movies gb war Stars ili 200 


= hb bf 
= p ee 


= 
= ee 
ee mh 
= eb 


在 大 多 数 系 统 中 ， 如 下 SQL 都 是 可 以 执行 的 : 





SELECT 
category,country, product, sales, rank 
FROM ( 

SELECT 


category,country,product, sales, 
rank() over (PARTITION BY category, country ORDER BY sales DESC) rank 
FROM p_rank_demo) t 
WHERE rank <= 3 





如 果 想 通过 HiveQL 获 得 相同 的 结果 ， 那 么 第 一 步 束 需要 将 数据 分 
成 组 。 我 们 可 以 使 用 DISTRIBUTE BY 语句 进行 分 组 。 我 们 需要 保证 具 
有 相同 类 别 和 国家 的 记录 都 发 送 到 同一 个 reducer 上 : 


DISTRIBUTE BY 
category, 
country 


下 一 步 束 是 使 用 SORT BY 语句 对 每 组 数据 按照 销量 降序 排列 。 因 为 
ORDER BY 会 触发 全 局 数据 排序 ， 所 以 SORT BY 所 涉及 的 数据 会 在 同 
一 个 特定 的 reducer 中 进行 排序 。 这 里 需要 重新 写 上 DISTRIBUTE BY 语 
句 中 的 划分 列 名 : 


SORT BY 
Category， 
country, 
sales DESC 








RATA A A ABBE iE, EE BIR ES: 


ADD JAR p-rank-demo. jar; 
CREATE TEMPORARY FUNCTION p_rank AS 'demo.PsuedoRank'; 


SELECT 
category, country, product, sales, rank 
FROM ( 

SELECT 
category, country, product, sales, 
p_rank(category, country) rank 

FROM ( 

SELECT 
category, country, product, 
sales 
FROM p_rank_demo 
DISTRIBUTE BY 
category, country 
SORT BY 
category, country, sales desc) t1) t2 
WHERE rank <= 3 





TAWE AAS ARUH IR m Ra ecg Ss 
照 销 售 数量 降序 排列 。 第 2 个 碍 询 t2 会 使 用 到 p_rank(O 函 数 ， 并 将 其 命名 
为 rank， 其 对 于 每 组 中 的 行 都 会 增加 一 个 排名 。 最 外 层 的 查询 会 限制 只 
保留 排名 前 三 的 值 。 经 排序 后 的 结果 如 表 23-3 所 示 。 


4223-3 ”对 样 例 表 p_rank_demo 进 行 RANK 排 序 后 的 数据 内 容 




















这 里 是 以 原生 UDF 的 方式 实现 p_rank() 函 数 的 ， 其 参数 都 是 确定 的 
组 属性 ， 在 本 例 中 ， 束 是 类 别 和 国家 。 这 个 函数 可 以 记 住 上 一 次 的 参数 
值 ， 因 此 只 要 成 功 和 参数 匹配 ， 束 会 一 直 增 加 数值 并 返回 排列 值 。 一 
和 参数 不 匹配 ， 这 个 函数 束 会 重 置 排列 值 为 1， 然 后 重新 开始 计算 。 


这 仅 是 个 说 明 如 何 使 用 p_rankO 函 数 的 简单 的 例子 。 用 户 当 然 也 可 
以 按照 类 别 和 国家 获取 最 畅销 的 第 10 位 到 第 15 位 的 商品 。 或 者 ， 用 户 已 
经 计算 好 了 每 个 商品 类 别 和 国家 下 的 商品 的 个 数 ， 那 么 用 户 也 可 以 结合 
JOIN 使 用 p_rankO 计 算 百 分 比 。 例 如 ， 假 设 在 “movies (H 


影 ) ”和 “us (美国 ) ”组 下 面 有 1000 种 产品 ， 那 么 第 50 名 、 第 70 名 和 第 
95 名 的 RANK 值 就 分 别 对 应 于 500、700 和 950。 这 里 需要 明确 的 是 ， 
P_rank0O 并 非 是 rankO 函 数 的 蔡 代 函数 ， 因 为 两 者 在 某 些 情形 下 是 有 差异 
的 。 例 如 ， 对 于 相同 的 值 ，rankO 函 数 返 回 的 值 是 相同 的 ， 但 是 p_rank0) 
和 
进行 测试 。 


下 面 展示 的 是 具体 的 代码 实现 。 这 份 代码 是 属于 公共 领域 的 ， 所 以 
用 户 可 以 随意 使 用 、 改 进 和 修改 它 ， 以 满足 个 人 的 需求 : 











package demo; 


import org.apache.hadoop.hive.ql.exec.UDFArgumentException; 

import org.apache.hadoop.hive.ql.metadata.HiveException; 

import org.apache.hadoop.hive.ql.udf.generic.GenericUDF; 

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector; 

import org.apache.hadoop.hive.serde2.objectinspector.primitive. 
PrimitiveObjectInspectorFactory; 


public class PsuedoRank extends GenericUDF { 

JER 

* The rank within the group. Resets whenever the group changes. 

A 

private long rank; 


JEF 

* Key of the group that we are ranking. Use the string form 

* of the objects since deferred object and equals do not work 
* as expected even for equivalent values. 

4 

private String[] groupKey; 


@Override 
public ObjectInspector initialize(ObjectInspector[] oi) 
throws UDFArgumentException { 
return PrimitiveObjectInspectorFactory.javaLongObjectInspector; 


} 


@Override 
public Object evaluate(DeferredObject[] currentKey) throws HiveException { 
if (!sameAsPreviousKey(currentKey)) { 


rank = 1; 
} 
return new Long(rank++); 
} 
fet 


* Returns true if the current key and the previous keys are the same. 
* If the keys are not the same, then sets {@link #groupKey} to the 
* current key. 
*/ 
private boolean SameAsPreviousKey(Deferredobject[] currentKey) 

throws HiveException { 

if (null == currentKey && null == groupKey) { 
return true; 


String[] previousKey = groupKey; 

copy(currentKey) ; 

if (null == groupKey && null != previousKey) { 
return false; 

} 

if (null != groupKey && null == previousKey) { 
return false; 

} 

if (groupKey.length != previousKey.length) { 
return false; 


for (int index = 0; index < previousKey.length; index++) { 
if (!groupKey[index].equals(previousKey[index])) { 
return false; 
} 
} 
return true; 


} 


fet 
* Copies the given key to {@link #groupKey} for future 
* comparisons. 
*/ 
private void copy(DeferredObject[] currentKey) 
throws HiveException { 
if (null == currentKey) { 
groupKey = null; 
} else { 
groupKey = new String[currentKey.length]; 
for (int index = 0; index < currentKey.length; index++) { 
groupkKey[index] = String. valueOf(currentKey[index].get()); 


} 
} 


@Override 
public String getDisplayString(String[] children) { 
StringBuilder sb = new StringBuilder(); 
sb.append("PsuedoRank ("); 
for (int i = 0; i < children.length; i++) { 
if (i > 0) { 
sb.append(", "); 


} 
sb.append(children[i]); 
sb.append(")"); 


return sb.toString(); 


} 


} 





23.1.3 M6D 如 何 管理 多 MapReduce 集 群 间 的 Hive 数 据 访问 


尽管 Hadoop 集 群 规模 可 以 设计 成 10 到 10 000 个 节点 ， 但 是 有 时 特定 
的 部 署 需求 会 涉及 要 在 不 止 一 个 文件 系统 或 者 JobTracker 上 运行 任务 。 
在 M6D 中 ， 我 们 有 这 样 的 需求 ， 例 如 我 们 有 一 些 需要 Hadoop 和 Hive 在 








每 小 时 或 每 天 都 可 以 按时 完成 的 关键 业务 报告 。 不 过 我 们 的 系统 也 文 持 
数据 科学 家 和 销售 工程 师 定 期 执行 的 一 些 特定 报告 。 尽 管 使 用 公平 调度 
器 和 能 力 调度 器 已 经 满足 了 我 们 的 大 部 分 需求 ， 我 们 仍 需要 更 高 的 调度 
隔离 。 同 时 ， 因 为 HDFS 没 有 快照 或 者 增 量 备份 功能 特性 ， 我 们 因此 需 
要 一 个 对 应 的 解决 方案 来 防止 意外 的 数据 删除 或 者 意外 的 删除 表 操 作 近 
而 避免 数据 丢失 。 


我 们 的 解决 方案 就 是 运行 2 个 独立 的 Hadoop 集 群 。 在 主 集群 上 ， 数 
据 可 以 被 设置 为 2 份 或 者 3 份 数据 了 见 余 ， 而 且 同 时 会 被 复制 到 第 2 个 集群 
上 。 这 种 方式 可 以 保证 我 们 对 于 时 效 性 强 的 需求 还 可 以 有 足够 的 资源 同 
时 提供 给 临时 用 户 进 行使 用 。 此 外 ， 我 们 可 以 防止 任何 意外 删除 表 或 数 
据 的 情况 。 这 种 方式 确实 会 增加 部 署 和 管理 2 个 集群 的 开销 ， 而 这 种 开 
销 在 我 们 的 使 用 场景 下 是 合理 的 。 

我 们 的 2 个 集群 分 别 被 称 为 生产 环境 和 研究 环境 。 其 都 具有 各 和 目的 
专 有 数据 节点 (DataNode) 和 任务 节点 (TaskTracker) 。 每 个 


NameNode 和 JobTracker 节 点 都 是 DRBD 和 Linux-HA 的 故障 恢复 方案 。 这 
2 个 集群 都 是 部 署 在 同一 个 交换 网 络 的 〈 见 表 23-4 和 表 23-5) 。 


表 23-4 生产 环境 配置 

















JobTracker jt-hadoop.pvt:54311 
423-5 ”探索 环境 
JobTracker rjt.hadoop.pvt:34311 


1. 使 用 Hive 执 行 跨 集群 查询 


生产 集群 上 存在 一 张 名 为 zz_mid_set 的 表 ， 但 是 我 们 期 望 不 使 用 
distcp 命 令 就 可 以 在 研究 集群 上 奉 询 这 张 表 。 通 常 来 次 ， 我 们 会 尽量 避 
免 这 样 的 操作 ， 因 为 其 破坏 了 我 们 的 隔离 设计 ， 但 是 很 高 兴 地 是 ， 这 样 
的 操作 是 可 以 做 到 的 。 


通过 describe extended 命 令 除 了 可 以 查看 表 具 有 的 字段 信息 外 还 可 以 
查看 其 实际 存储 的 HDFS 路 径 : 














hive> set fs.default.name; 
fs.default.name=hdfs://hdfs.hadoop. pvt :54310 
hive> set mapred.job.tracker; 
mapred.job.tracker=jt.hadoop.pvt:54311 
hive> describe extended zz_mid_set; 

OK 

adv_spend_id int 

transaction_id bigint 

time string 

client_id bigint 

visit_info string 

event_type tinyint 

level int 


location: hdfs://hdfs.hadoop. pvt :54310/user/hive/warehouse/zz_mid_set 
Time taken: 0.063 seconds 

hive> select count(1) from zz_mid_set; 

1795928 





在 第 2 个 集群 上 ， 使 用 CREATE TABLE 语 句 创建 相同 的 表 ， 表 的 类 
型 需要 是 外 部 表 (EXTERNAL) ， 这 样 即使 在 第 2 个 集群 上 执行 了 删 
除 表 操作 ， 也 不 会 真实 地 删除 第 1 个 表 中 的 数据 。 需 要 注意 的 是 ， 这 里 
我 们 需要 指定 完整 的 URL 路 径 。 事 实 上 ， 当 用 户 通 过 相对 路 径 来 指定 表 
存储 路 径 时 ，Hive 实 际会 在 元 数据 库 中 存储 完整 的 UREL 路 径 : 











hive> set fs.default.name; 
fs.default.name=hdfs://rs01.hadoop. pvt: 34310 

hive> set mapred.job.tracker; 
mapred.job.tracker=rjt.hadoop. pvt :34311 

hive> CREATE TABLE EXTERNAL table_in_another_cluster 


( adv_spend_id int, transaction_id bigint, time string, client_id bigint, 
visit_info string, event_type tinyint, level int) 

LOCATION 'hdfs://hdfs.hadoop.pvt:54310/user/hive/warehouse/zz_mid_set'; 
hive> select count(*) FROM table_in_another_cluster; 

1795928 








需要 注意 的 是 ， 之 所 以 这 样 的 跨 集群 操作 可 以 工作 ， 是 因为 两 个 集 
群 的 网 络 是 相通 的 。 我 们 所 提交 的 任务 所 在 的 TaskTracker 节 点 需要 能 够 
访问 另 一 个 集群 的 NameNode 节 点 和 所 有 的 DataNode 节 点 。Hadoop 的 设 
计 理 念 中 有 一 项 就 是 转移 计算 而 不 转移 数据 ， 束 是 将 计算 尽量 地 转移 到 
数据 所 在 的 位 置 。 通 过 调度 将 计算 任务 转移 到 数据 所 在 的 节点 上 。 在 这 
种 情况 下 ，TaskTracker 会 连接 男 一 个 集群 的 DataNode。 这 就 意味 着 会 造 
成 通用 性 能 下 降 和 网 络 占 用 增加 。 


2. 不 同 集群 间 的 Hive 数 据 见 余 


对 于 Hadoop 和 Hive 而 言 保持 数据 见 余 要 比 传统 关系 型 数据 库容 易 得 
多 。 和 传统 数据 库 在 执行 多 事务 时 会 频繁 改变 底层 数据 不 同 ，Hadoop 和 





Hive 中 的 数据 通常 是 “一 次 写 入 的 ”。 增 加 新 分 区 不 会 影响 到 已 经 存在 的 
其 他 分 区 ， 而 且 通 种 来 说 ， 是 按照 时 间 日 期 来 增加 新 分 区 的 。 


我 们 于 期 所 使 用 的 备份 系统 是 一 个 独立 的 系统 ， 也 就 古 使 用 distcp | 
命令 进行 操作 ， 然 后 按照 一 定 的 时 间 间 隅 使 用 生成 的 Hive 语 句 来 增加 分 
区 。 当 我 们 想 备份 一 张 新 表 时 ， 我 们 就 会 先 拷 贝 来 一 份 已 有 的 代码 ， 然 
后 修改 下 这 个 脚本 的 配置 来 处 理 新 的 表 和 分 区 。 经 过 一 段 时 间 ， 我 们 制 
定 了 一 个 可 以 更 加 上 自动 化 对 表 和 分 区 进行 备份 的 系统 。 


这 个 处 理 过 程 在 创建 分 区 的 同时 会 创建 一 个 空 的 HDFS 文 件 ， 名 





/replication/default.fracture_act/hit_date=20110304, mid=3000 


备份 进程 会 不 断 地 扫描 需要 备份 的 目录 结构 。 如 条 其 发 现 一 个 新 的 
文件 ， 那 么 残 会 在 Hive 元 数据 库 中 查找 其 对 应 的 表 和 分 区 ， 然 后 使 用 合 
找 结果 来 备份 这 个 分 区 。 成 功 备 份 后 这 个 文件 束 会 被 删除 挥 。 


如 下 的 代码 片段 就 是 这 个 程序 的 主 循环 处 理 部 分 。 首 先 ， 我 们 会 做 
- 些 检查 来 确保 表 是 存在 于 目标 元 数据 存储 中 : 








public void run(){ 
while (goOn){ 

Path base = new Path(pathToConsume) ; 

FileStatus [] children = srcFs.listStatus(base); 

for (FileStatus child: children) { 

try { 
openHiveService(); 
String db = child.getPath().getName().split("\\.")[0]; 
String hiveTable = child.getPath().getName().split("\\.")[1]; 
Table table = srcHive.client.get_table(db, hiveTable); 
if (table == null){ 
throw new RuntimeException(dbt+" "+hiveTable+ 
" not found in source metastore"); 


} 
Table tableR = destHive.client.get_table(db, hiveTable) ; 
if (tableR == null){ 
throw new RuntimeException(db+" "+hiveTable+ 
" not found in dest metastore"); 


} 


通过 数据 库 名 和 表 名 我 们 就 可 以 在 元 数据 存储 中 找到 其 对 应 的 存储 
路 径 信 息 。 之 后 ， 我 们 会 做 一 个 检查 来 保证 这 个 信息 并 非 已 经 存在 : 











URI localTable = new URI(tableR.getSd().getLocation()); 
FileStatus [] partitions = srcFs.listStatus(child.getPath()); 


for (FileStatus partition : partitions){ 
try { 
String replaced = partition.getPath().getName() 
A replace(", i my") A replace(" 1 wa nags 
Partition p = srcHive.client.get_partition_by_name( 
db, hiveTable, replaced); 
URI partUri = new URI(p.getSd().getLocation()); 
String path = partUri.getPath(); 
DistCp distCp = new DistCp(destConf.conf); 
String thdfile = "/tmp/replicator_distcp"; 
Path tmpPath = new Path(thdfile); 
destFs.delete(tmpPath, true); 
if (destFs.exists( new Path(localTable.getScheme()+ 
"://"+localTable.getHost()+":"+localTable.getPort()+ 


throw new RuntimeException("Target path already exists " 
+localTable.getScheme()+"://"+localTable.getHost()+ 
":"+localTable.getPort()+path ); 








Hadoop 的 DistCP 并 不 适合 通过 编程 的 方式 来 运行 。 不 过 ， 我 们 可 以 
传递 一 组 字符 串 数据 给 其 主 函 数 。 然 后 通过 其 返回 值 是 人 否 是 0 来 判断 是 
售 成 功 执行 : 





String [] dargs = new String [4]; 

dargs[0]="-log"; 

dargs[1]=localTable.getScheme()+"://"+localTable.getHost()+":"+ 
localTable.getPort()+thdfile; 

dargs[2]=p.getSd().getLocation(); 

dargs[3]=localTable.getScheme()+"://"+localTable.getHost()+":"+ 
localTable.getPort()+path; 

int result =ToolRunner.run(distCp,dargs); 

if (result != O){ 
throw new RuntimeException("DistCP failed "+ dargs[2] +" "+dargs[3] 





最 后 ， 我 们 拼接 好 ALTER TABLE 语 句 来 增加 分 区 : 





String HQL = "ALTER TABLE "+hiveTable+ 
" ADD PARTITION ("+partition.getPath().getName( ) 
+") LOCATION '"+path+"'"; 
destHive.client.execute("SET hive.support.concurrency =false"); 
destHive.client.execute("USE "+db); 
destHive.client.execute(HQL); 
String [] results=destHive.client.fetchAll(); 
srcFs.delete(partition.getPath(), true); 
} catch (Exception ex)f{ 
ex.printStackTrace(); 
} 
} // for each partition 
} catch (Exception ex) { 
//error(ex); 
ex. printStackTrace(); 


} 
} // for each table 


closeHiveService(); 
Thread.sleep(60L*1000L); 
} // end run loop 
} // end run 





23.2 Outbrain 


David Funk 





Outbrain 是 领先 的 内 容 发 现 平 台 。 
23.2.1 站 内 线 上 身份 识别 


有 时 ， 当 用 户 想 碍 看 网 站 的 流量 情况 时 ， 很 难 弄 清楚 这 些 流 量 实际 
来 源 于 哪里 ， 特 别 是 来 源 于 用 户 网 站 之 外 的 流量 情况 。 如 果 用 户 的 网 站 
具有 很 多 结构 不 同 的 URL 的 话 ， 那 么 就 无 法 简单 地 将 所 有 的 链接 URL 和 
HP EK Ey DLC 


1. 对 URL 进 行 清洗 


我 们 期 望 达到 的 目的 就 是 可 以 将 链 入 的 链接 分 成 站 内 的 、 直 接 链 入 
的 或 其 他 3 个 分 组 。 如 果 所 属 组 类 型 是 其 他 的 话 ， 那 么 我 们 将 仅仅 保存 
原始 的 URL 链 接 。 这 样 ， 束 可 以 将 像 对 用 户 站 点 进行 的 Google 搜 索 这 样 
的 链接 从 网 站 流量 中 区 分 出 来 ， 等 等 。 如 果 链 入 的 链接 是 空 的 或 者 值 为 
null， 那 么 我 们 将 其 标记 为 直接 链 入 的 那 组 。 


从 现在 开始 ， 我 们 将 假定 所 有 的 URL 网 址 都 已 经 解析 到 主机 名 或 域 
名 了 ， 而 无 论 用 户 目标 具体 到 什么 级 别 的 粒度 。 就 我 个 人 而 言 ， 我 喜欢 
因为 它 更 简单 。 据 说 ，Hive 只 有 一 个 主机 名 函数 ， 但 不 是 域名 


如 果 你 只 有 原始 URL， 则 有 几 个 选项 可 供 选 择 。 通 过 HOST 选项 ， 
正如 下 面 例子 所 展示 的 ， 可 以 是 个 给 出 的 链接 中 完整 的 主机 名 ， 如 
news.google.com 或 www.google.com， 而 其 中 的 域名 将 缩短 到 最 低 的 逻辑 
层次 ， 像 google.com 或 google.com.Uk。 


也 许 用 户 正在 使 用 一 个 UDF 来 处 理 这 种 情况 。 不 管 怎 样 ， 我 并 不 在 
平 。 重 要 的 是 我 们 要 使 用 这 些 来 进行 匹配 ， 所 以 用 户 需 要 根据 自己 的 使 
用 场景 来 做 出 最 合适 的 选择 。 

















2. Determining referrer type 


因此 ， 回 到 这 个 例子 。 比 方 说 ， 我 们 有 3 个 网 站 : mysitel.com、 
mysite2.com 和 mysite3.com。 现 在 ， 我 们 可 以 把 每 个 页 面 的 URL 转 换 成 
适当 的 类 别 。 我 们 假设 有 一 个 表 ， 表 名 为 referrer_identification， 其 字段 
QF: 


ri_page_url STRING 
ri_referrer_url STRING 


现在 ， 我 们 可 以 很 容易 地 通过 如 下 查询 来 添加 链接 类 型 : 








SELECT ri_page_url, ri_referrer_url, 
CASE 
WHEN ri_referrer_url is NULL or ri_referrer_url = ‘’ THEN ‘DIRECT’ 
WHEN ri_referrer_url is in (‘mysite1.com’,’mysite2.com’, ’mysite3.com’) THEN ‘INSIT 


E’ 
ELSE ri_referrer_url 
END as ri_referrer_url_classed 
FROM 
referrer_identification; 





3. Multiple URL 


这 都 是 非常 简单 的 。 但 是 如 果 我 们 使 用 的 是 一 个 广告 网 络 呢 ? 如 采 
我 们 有 成 百 上 干 的 网 站 呢 ? 如 果 每 个 站 点 可 以 有 任意 数量 的 URL 结 构 呢 ? 


如 琳 是 这 样 的 话 ， 我 们 可 能 也 有 一 个 包含 每 个 URL 的 表 ， 以 及 它 属 


于 什么 类 型 的 网 站 。 让 我 们 将 这 张 表 命 名 为 site_url， 其 有 如 下 2 个 字 
段 : 


su_url STRING 
让 我 们 为 之 前 的 那 张 表 referrer_identification 添 加 一 个 新 的 字段 : 
现在 我 们 开始 讨论 这 个 问题 。 我 们 要 做 的 是 通过 每 个 链 入 网 址 ， 看 
它 是 否 与 任何 相同 的 站 点 ID 匹配 。 如 果 是 匹配 的 话 ， 那 么 这 是 一 个 站 内 
链接 ， 人 否则 不 是 站 内 链接 。 所 以 ， 让 我 们 通过 如 下 查询 进行 确认 : 
SELECT 





c.c_page_url as ri_page_url, 
c.c_site_id as ri_site_id, 
CASE 
WHEN c.c_referrer_url is NULL or c.c_referrer_url = ‘’ THEN ‘DIRECT’ 
WHEN c.c_insite_referrer_flags > 0 THEN ‘INSITE’ 
ELSE c.c_referrer_url 
END as ri_referrer_url_classed 
FROM 
(SELECT 
a.a_page_url as c_page_url, 
a.a_referrer_url as c_referrer_url, 
a.a_site_id as c_site_id, 
SUM(IF(b.b_url <> ‘’, 1, 0)) as c_insite_referrer_flags 
FROM 
(SELECT 
ri_page_url as a_page_url, 
ri_referrer_url as a_referrer_url, 
ri_site_id as a_site_id 
FROM 
referrer_identification 
)a 
LEFT OUTER JOIN 
(SELECT 
su_site_id as b_site_id, 
su_url as b_url 


a.a_site_id = b.b_site_id and 
a.a_referrer_url = b.b_url 


) c 











对 于 这 个 查询 语句 有 几 点 需要 说 明 。 在 本 例 中 ， 我 们 使 用 的 是 外 连 
接 ， 因 为 我 们 希望 有 一 些 外 部 链 入 链接 不 与 其 匹配 ， 这 将 让 它们 通过 。 
因此 ， 我 们 只 会 抓 住 确实 匹配 的 条 目 ， 如 果 有 任何 这 样 的 链接 ， 我 们 知 
道 它 们 来 自 网 站 内 的 某 处 。 

23.2.2 ”计算 复杂 度 


假设 用 户 要 计算 用 户 网 站 、 网 络 或 其 他 什么 东西 的 独立 访客 数量 的 
话 。 我 们 将 使 用 一 个 非常 简单 的 假想 表 daily_users 来 表示 : 


du_user_id STRING 
du_date STRING 


不 过 ， 如 果 有 非常 多 的 用 户 而 且 集群 中 义 疫 有 足够 的 机 器 的 话 ， 那 
么 在 集群 中 计算 一 个 月 的 用 户 数据 都 会 变 得 非常 困难 : 


SELECT 
COUNT(DISTINCT du_user_id) 





FROM 
daily_users 

WHERE 
du_date >= ‘2012-03-01’ and 
du_date <= ‘2012-03-31’ 





在 所 有 的 可 能 性 中 ， 如 果 用 户 集群 没有 太 多 问题 ， 则 可 以 使 其 通过 
map 阶 段 ， 但 是 在 reduce 阶 段 就 会 出 现 问 题 。 问 题 就 是 ， 它 能 够 访问 所 
有 的 记录 ， 但 却 不 能 同时 对 其 进行 计数 。 当 然 ， 用 户 也 不 能 每 天 都 对 其 
进行 计算 ， 因 为 这 样 做 可 能 会 有 些 多 余 。 


1. 为 什么 这 是 个 问题 


计数 复杂 上 度 是 O(n)， 其 中 n 是 记录 的 数量 ， 但 它 有 一 个 比较 高 的 常 
数 因 子 。 我 们 可 能 会 想 出 一 些 聪明 的 切割 方式 ， 来 稍微 降低 一 点 计算 复 
杂 度 ， 但 更 容易 的 方式 就 是 减 小 n 的 值 。 虽 然 有 一 个 高 O(n) 并 不 好 ， 但 
大 多 数 真正 的 问题 出 现在 后 面 。 如 果 用 户 处 理 某 个 问题 需要 运行 的 时 间 
是 ntt1 ， 那 么 谁 在 平 如 果 n = 2 还 是 n = 1 呢 。 这 样 确实 会 较 之 前 慢 ， 但 远 
远 没有 n=1 和 n=100 之 间 的 区 别 那 么 大 。 


所 以 ， 如 果 假 设 每 天 都 有 m 条 数目 ， 而 平均 元 余 是 x 的 话 ， 那 么 我 们 


的 第 1 个 查询 将 是 n=31*m 条 记录 。 我 们 通过 创建 一 个 用 来 保存 每 天 重复 
版 本 的 临时 表 将 查询 记 录 减 少 到 n=31*(m-x)。 


2. 加 载 一 个 临时 表 
首先 ， 创 建 临 时 表 : 


CREATE TABLE daily_users_deduped (dud_user_id STRING) 
PARTITIONED BY (dud_date STRING) 

ROW FORMAT DELIMITED 

FIELDS TERMINATED BY ‘\t’; 









































然后 我 们 写 一 个 每 天 都 可 以 执行 一 次 的 查询 模 板 版 本 ， 然 后 使 用 它 
来 更 新 我 们 的 临时 表 。 我 一 般 将 这 些 操 作 称 为 “netajobs”， 上 所 以 我 们 可 
以 称 为 mj_01.sql: 





INSERT OVERWRITE TABLE daily_users_deduped 
PARTITION (dud_date = ‘:date:’) 


SELECT DISTINCT 
du_user_id 

FROM 
daily_users 


WHERE 
du_date = ‘:date:’ 


接 下 来 ， 我 们 写 一 个 脚本 ， 来 蔡 换 组 装 这 个 文件 ， 然 后 再 在 指定 的 
日 期 范围 内 运行 这 个 脚本 。 为 此 ， 我 们 需要 涉及 到 3 个 函数 ， 分 别 为 : 
modify_ temp_file 函 数 ， 其 用 于 蔡 换 一 个 变量 ; fire_query 函 数 ， 其 实质 
| 最 后 一 个 函数 是 delete， 用 于 删除 
文件 。 





start_date = ‘2012-03-01’ 
end_date = ‘2012-03-31’ 


for date in date_range(start_date, end_date): 
femp_file = modify_temp_file(‘mj_01.sql’,{‘:date:’:my_date}) 
fire_query(temp_file) 
delete(temp_file) 





3. 查询 临时 表 


运行 这 个 脚本 ， 然 后 就 可 以 得 到 一 个 n=31*(m-x) 大 小 的 表 。 现 在 ， 
就 无 需 一 个 大 的 reduce 执 行 过 程 就 可 以 查询 这 个 表 了 。 





SELECT 

COUNT(DISTINCT (dud_uuid) 
FROM 

daily_users_deduped 


如 果 这 还 不 够 的 话 ， 那 么 还 可 以 按照 日 期 来 去 重 ， 也 许可 以 每 次 两 
个 日 期 ， 而 不 管 时 间 间 隔 是 多 少 。 如 果 仍 然 有 困难 ， 那 么 还 可 以 根据 用 
人 也 许可 以 基于 用 户 ID 的 第 1 个 字符 ， 进 一 步 
缩小 n 的 值 。 


如 果 可 以 将 nm 缩小 的 话 ， 那 么 高 O(D) 也 没有 什么 大 不 
了 的 。 


23.2.3 SM 
为 了 分 析 网 络 流量 ， 我 们 常 津 希望 能 够 基于 各 种 各 样 的 标准 来 测量 
热度 。 一 种 方法 就 是 将 用 户 行为 分 解 到 会 话 中 ， 一 次 会 话 代 表单 一 的 一 


次 “使 用 ”所 包含 的 一 系列 操作 。 一 个 用 户 在 一 天 内 或 者 一 月 中 的 某 几 天 
可 以 多 次 访问 茶 个 网 站 ， 但 每 一 次 访问 肯定 是 不 一 样 的 。 


那么 ， 什 么 是 一 个 会 话 呢 ? 一 种 定义 是 指 相隔 不 超过 30 分 钟 的 一 连 
捉 的 活动 就 是 一 个 会 话 。 也 就 是 说 ， 如 果 你 去 你 的 第 1 个 页 面 ， 等 得 5 分 
钟 ， 然 后 去 第 2 个 页 面 ， 那 么 这 是 相同 的 会 话 。 等 竺 30 分 钟 后 再 到 第 3 
页 ， 仍 然 是 相同 的 会 话 。 等 待 31 分 钟 跳 转 到 第 4 页 ， 这 次 会 话 将 被 打破 
了 ， 这 将 不 是 第 4 个 访问 页 面 了 ， 而 是 第 2 个 会 话 中 的 第 1 个 页 面 。 

一 旦 我 们 获得 这 些 中 断 信 息 ， 我 们 残 可 以 查看 会 话 的 属性 信息 ， 来 
看 看 发 生 了 什么 事 而 导致 中 断 的 。 常 规 的 方式 就 是 通过 会 话 长 度 来 对 链 
入 的 页 面 进行 比较 。 所 以 ， 我 们 可 能 需要 奉 清 楚 谷 歌 或 Facebook 是 否 给 
了 予 这 个 网 站 更 好 的 热点 ， 这 也 许可 以 通过 会 话 长 度 来 进行 测量 。 


乍 一 看 ， 这 似乎 是 一 个 完美 的 达 代 过 程 。 对 于 每 个 页 面 ， 保 持 倒 计 
数 ， 直 到 你 找到 第 1 个 页 面 。 但 Hive 是 不 支持 迭代 的 。 


不 过 ， 还 是 可 以 解决 这 个 问题 的 。 我 想 将 这 个 处 理 过 程 分 为 4 个 阶 
段 。 


DO 识别 哪些 页 面 浏览 量 是 会 话 初 始 者 ， 或 起源 ?页面 。 
Q@ 对 于 每 个 页 面 ， 将 其 划分 到 正确 的 来 源 页 面 。 

O 将 所 有 的 页 面 浏 览 量 聚 合 到 每 个 来 源 页 面 。 

O 对 每 个 来 源 页 面 进行 标记 ， 然 后 计算 每 个 会 话 的 热度 。 


这 种 方式 将 产生 一 个 表 ， 其 中 每 一 行 都 表示 一 个 完整 的 会 话 ， 然 后 
用 户 就 可 以 碍 询 任何 想 知 道 的 信息 了 。 


1. 设置 
首先 定义 表 session_ test 的 字段 如 下 : 


st_user_id STRING 
st_pageview_id STRING 












































st_page_url STRING 


st_referrer_url STRING 
st_timestamp DOUBLE 





这 些 内 容 都 很 简单 ， 不 过 我 需要 提 一 下 st_pageview_id 表 示 的 每 个 
事物 〈 在 这 种 情况 下 就 是 一 个 页 面 ) 的 唯一 ID。 和 否则 ， 多 次 查看 完全 相 


同 的 页 面 可 能 会 令 人 比较 困惑 。 本 示例 中 ， 时 间 惟 以 秒 为 单位 。 
2. 找到 来 源 页 面 浏 览 量 


好 的 ， 下 面 让 我 们 开始 第 一 步 ( 令 人 震惊 吧 ! ) 。 首 先 看 看 我 们 是 
如 何 找到 这 页 面 浏览 会 话 的 起 始 页 面 的 。 好 吧 ， 如 果 我 们 假定 任何 超过 
30 分 钟 的 停留 融 意 味 着 一 个 新 会 话 的 话 ， 那 么 任意 的 会 话 起 始 页 都 不 可 
能 停留 超过 30 分 钟 或 更 少 的 时 间 。 这 是 一 个 典型 的 案例 总 结 条件 。 我 们 
要 做 的 就 是 ， 计算 每 个 访问 页 面 的 次 数 。 然 后 ， 任 何 计数 为 零 的 页 面 就 
一 定 是 一 个 起 始 页 面 。 


为 了 能 做 到 这 一 点 ， 我 们 需要 比较 所 有 可 外 在 这 个 页 面 之 前 的 页 
面 。 Se ON IIE ERR. 因为 它 需 要 执行 一 个 香 卡 尔 交 叉 乘 
积 。 为 了 防止 数据 膨胀 到 不 可 收拾 的 大 小 ， 我 们 应 该 使 用 尽 可 能 多 的 约 
束 条 件 来 限制 数据 量 。 eee 限制 条 件 只 SAHID, 但 是 如 果 
eae 个 包含 众多 独立 站 点 的 大 型 网 络 的 话 ， 那 么 还 可 以 按照 每 个 源 

行 分 组 : 

















CREATE TABLE sessionization_step_one_origins AS 


SELECT 
c.c_user_id as ssoo_user_id, 
c.c_pageview_id as ssoo_pageview_id, 
c.c_timestamp as ssoo_timestamp 
FROM 
(SELECT 
a.a_user_id as c_user_id, 
a.a_pageview_id as c_pageview_id, 
a.a_timestamp as c.c_timestamp, 
SUM(IF(a.a_timestamp + 1800 >= b.b_timestamp AND 
a.a_timestamp < b.b_timestamp,1,0)) AS c_nonorigin_flags 
FROM 
(SELECT 
st_user_id as a_user_id, 
st_pageview_id as a_pageview_id, 
st_timestamp as a_timestamp 
FROM 
session_test 
)a 
JOIN 
(SELECT 
st_user_id as b_user_id, 
st_timestamp as b_timestamp 
FROM 
session_test 


a.a_user_id = b.b_user_id 
GROUP BY 
a.a_user_id, 


a.a_pageview_id, 
a.a_timestamp 
) c 
WHERE 


c.c_nonorigin_flags 











这 个 SQL 可 能 有 点 长 。 不 过 其 中 重要 的 部 分 是 计算 是 否 是 起 始 页 码 
的 计数 器 ， 也 束 是 我 们 定义 的 define c_nonorigin_flags。 基 本 上 ， 计 算 过 
程 如 下 行 所 示 : 





SUM(IF(a.a_timestamp + 1800 >= b.b_timestamp AND 





a.a_timestamp < b.b_timestamp,1,0)) as c_nonorigin_flags 


我 们 将 其 进行 分 解 ， 一 部 分 一 部 分 进行 介绍 。 首 先 ， 从 子 查 询 a 开 
台 。 我 们 使 用 别名 b 表 示 那 些 候选 数据 。 因 此 ， 第 一 部 分 ， 其 中 的 
a.a_timestamp+1800 >=b.b_timestamp， 表 示 候 选 数据 时 间 惟 不 能 比 限 定 
的 时 间 惟 早 30 分 钟 ， 第 二 部 分 ，a.a_timestamp < b.b_timestamp 这 段 SQL 
片段 表示 候选 时 间 戳 比 限 定时 间 戳 值 要 大 ， 这 是 一 个 检查 过 程 ， 如 果 不 
通过 则 返回 FALSE。 同 时 ， 因 为 这 是 个 交叉 运算 ， 因 为 不 能 使 用 候选 时 
间 戳 作为 自己 的 限定 时 间 戳 ， 否 则 返回 FALSE。 





现在 ， 产 生 表 sessionization_step_one_origins， 其 字段 信息 如 下 : 


ssoo_user_id STRING 
ssoo_pageview_id STRING 
ssoo_timestamp DOUBLE 


3. 将 PV 分 桶 到 起 始 页 面 中 
开始 第 2 步 的 一 个 好 的 理由 就 是 ， 我 们 需要 找到 某 个 页 面 所 属 的 起 
台 页 面 。 做 法 很 简单 ， 每 个 页 面 的 起 始 页 面 必定 是 其 之 前 的 最 近 的 页 


面 。 为 此 ， 我 们 进行 另外 一 个 大 的 表 连 接 操作 来 检查 页 面 时 间 戳 和 所 有 
潜在 的 起 始 页 面 间 的 最 小 差 值 : 











CREATE TABLE sessionization_step_two_origin_identification AS 





SELECT 
c.c_user_id as sstoi_user_id, 
c.cC_pageview_id as sstoi_pageview_id, 
d.d_pageview_id as sstoi_origin_pageview_id 
FROM 
(SELECT 
a.a_user_id as c_user_id, 
a.a_pageview_id as c_pageview_id, 
MAX(IF(a.a_timestamp >= b.b_timestamp, b.b_ timestamp, NULL)) as c_origin_timestamp 
FROM 


(SELECT 
st_user_id as a_user_id, 
st_pageview_id as a_pageview_id, 
st_timestamp as a_timestamp 
FROM 
session_test 
)a 
JOIN 
(SELECT 
ssoo_user_id as b_user_id, 
ssoo_timestamp as b_timestamp 


FROM 
sessionization_step_one_origins 
) b 
ON 
a.a_user_id = b.b_user_id 
GROUP BY 


a.a_user_id, 
a.a_pageview_id 
yc 
JOIN 
(SELECT 
ssoo_usr_id as d_user_id, 
ssoo_pageview_id as d_pageview_id, 
ssoo_timestamp as d_timestamp 
FROM 
sessionization_step_one_origins 


c.c_user_id = d.d_user_id and 
c.c_origin_timestamp = d.d_timestamp 








这 里 还 有 很 多 内 容 要 讲 。 首 先 ， 让 我 们 看 看 如 下 这 行 语句 : 








MAX(IF(a.a_timestamp >= b.b_timestamp, b.b_timestamp, NULL)) as c_origin_timestamp 


我 们 再 次 使 用 约束 值 和 候选 值 的 思路 进行 计算 。 在 这 种 情况 下 ，b 
古 每 一 个 约束 值 a 的 候选 值 。 一 个 起 始 候 选 值 是 不 会 比 页 面 访问 的 时 间 
晚 的 ， 所 以 对 于 这 类 情况 ， 我 们 期 望 找 到 符合 标准 的 最 新 起 始 页 。 其 中 
null 值 是 无 天 紧要 的 ， 因 为 我 们 要 保证 获取 一 个 最 低 值 ， 总 是 有 人 至少 一 
个 可 能 的 起 始 页 面 的 (即使 是 这 个 页 面 本 里)。 这 不 会 得 到 我 们 期 望 的 起 
台 页 面 ， 但 是 可 以 给 我 们 时 间 戳 ， 这 样 我 们 就 可 以 根据 时 间 截 来 判断 是 
个 是 起 始 页 面 。 


在 这 里 ， 我 们 仅仅 是 将 这 个 时 间 惟 与 所 有 其 他 潜在 的 起 始 页 面 时 间 
稚 进 行 风 配 ， 然 后 我 们 就 可 以 知道 哪些 页 面 属于 哪些 起 始 页 面 。 最 终 产 
生 表 sessionization_step_two_origin_identification， 其 字段 信息 如 下 : 


























sstoi_user_id STRING 
sstoi_pageview_id STRING 
sstoi_origin_pageview_id STRING 





值得 一 提 的 是 ， 这 不 是 识别 起 始 页 面 的 唯一 方法 。 用 尸 可 以 基于 引 
入 ， 标 记 出 所 有 外 部 链接 、 主 页 URL 或 空白 链 入 页 面 (表示 是 直接 流量 ) 
作为 一 个 起 始 会 话 。 用 户 还 可 以 基于 动作 ， 只 测量 鼠标 点 击 后 的 动作 。 
还 是 有 很 多 选择 方案 的 ， 但 最 重要 的 是 确定 什么 样 的 会 话 是 起 始 会 话 。 


4. 对 起 始 页 面 进行 聚合 
对 于 这 一 点 ， 处 理 起 来 非常 容易 。 第 3 步 ， 我 们 将 会 对 起 始 页 面 进 


行 聚 合 ， 这 个 过 程 真 的 ， 真 的 简单 。 对 于 每 个 起 始 页 面 ， 计 算 其 对 应 的 
页 面 浏 览 量 : 














CREATE TABLE sessionization_step_three_origin_aggregation AS 





SELECT 
a.a_user_id as sstoa_user_id, 
a.a_origin_pageview_id as sstoa_origin_pageview_id, 
COUNT(1) as sstoa_pageview_count 
FROM 
(SELECT 
ssoo_user_id as a_user_id 
ssoo_pageview_id as a_origin_pageview_id 
FROM 
sessionization_step_one_origins 
)a 
JOIN 
(SELECT 
sstoi_user_id as b_user_id, 
sstoi_origin_pageview_id as b_origin_pageview_id 
FROM 
sessionization_step_two_origin_identification 
b 





ON 
a.a_user_id = b.b_user_id and 
a.a_origin_pageview_id = b.b_origin_pageview_id 
GROUP BY 
a.a_user_id, 
a.a_origin_pageview_id 





5. 按照 起 始 页 面 类 型 进行 聚合 


现在 是 最 后 一 步 了 ， 我 们 可 以 不 必 保 留 页 面 的 所 有 的 属性 信息 ， 尤 
其 对 于 在 前 面 的 处 理 步 又 之 一 的 起 始 页 面 来 说 。 然 而 ， 如 果 用 户 需 要 注 
意 很 多 细节 的 话 ， 那 么 在 最 后 的 处 理 阶段 也 是 可 以 很 容易 将 需要 的 信息 
添加 进来 的 。 下 面 是 第 4 步 : 


CREATE TABLE sessionization_step_four_qualitative_labeling 
SELECT 








a_user_id as ssfql_user_id, 
a_origin_pageview_id as ssfql_origin_pageview_id, 
b_timestamp as ssfql_timestamp, 
b_page_url as ssfql_page_url, 
b_referrer_url as ssfql_referrer_url, 
a.a_pageview_count as ssqfl_pageview_count 
(SELECT 
sstoa_user_id as a_user_id, 
sstoa_origin_pageview_id as a_origin_pageview_id, 
sstoa_pageview_count as a_pageview_count 
FROM 
sessionization_step_three_origin_aggregation 
)a 
JOIN 
(SELECT 
st_user_id as b_user_id, 
st_pageview_id as b_pageview_id, 
st_page_url as b_page_url, 
st_referrer_url as b_referrer_url, 
st_timestamp as b_timestamp 
FROM 
session_test 


ooog 





a.a_user_id = b.b_user_id and 
a.a_origin_pageview_id = b.b_pageview_id 





衡量 热度 


现在 ， 使 用 我 们 的 最 终 表 ， 我 们 可 以 做 任何 我 们 想 要 做 的 事情 。 假 
设 我 们 想 知 道 会 话 数 量 、 平 均 每 个 会 话 页 面 浏览 量 、 每 次 会 话 的 加 权 平 
均 综合 浏览 量 以 及 最 大 或 最 小 浏览 量 。 那 么 我 们 可 以 选择 任何 我 们 想 要 
的 标准 ， 或 根本 没有 任何 标准 。 但 是 在 这 种 情况 下 ， 我 们 通过 链接 URL 
能 找到 答案 ， 其 流量 来 源 具 有 最 好 的 热度 。 只 是 为 了 好 玩 ， 让 我 们 也 看 
看 谁 给 了 我 们 最 独特 的 用 户 : 


SELECT 
PARSE_URL(ssfql_referrer_url, ‘HOST’) as referrer_host, 
COUNT(1) as session_count, 
AVG(ssfql_pageview_count) as avg_pvs_per_session, 
SUM(ssfq_pageview_count)/COUNT(1) as weighted_avg_pvs_per_session, 
MAX(ssfgl_pageview_count) as max_pvs_per_session, 








MIN(ssfgql_pageview_count) as min_pvs_per_session, 
COUNT(DISTINCT ssfgql_usr_id) as unique_users 
FROM 
sessionization_step_three_origin_aggregation 
GROUP BY 
PARSE_URL(ssfql_referrer_url, ‘HOST’) as referrer_host 








然后 我 们 就 可 以 得 到 结果 了 。 我 们 可 以 查看 到 哪个 UREL 页 面 热度 最 
大 ， 以 及 确定 忠实 用 户 是 哪些 ， 等 等 。 一 旦 我 们 拥有 一 个 包含 有 这 一 
言 息 的 临时 表 ， 尤 其 是 具有 一 个 更 完整 的 定性 属性 信息 的 表 ， 





以 回答 各 种 各 样 的 用 户 热度 问题 。 


23.3 NASA 喷 气 推 进 实 验 室 
23.3.1 ”区域 气 候 模 型 评价 系统 


— Chris A. Mattmann、 Paul Zimdars、 Cameron Goodale. Andrew F. 
Hart, 


Jinwon Kim. Duane Waliser. Peter Lean 共 同 编写 


自 2009 年 以 来 ， 我 们 在 美国 宇航 局 CNASA) 喷气 推进 实验 室 
(JPL) 的 团队 就 已 经 积极 发 展 引 出 了 一 个 区 域 气候 模型 评价 系统 
(RCMES) 。 这 个 系统 起 先是 在 美国 复苏 和 再 投资 法 案 CARRA) 资助 
下 展开 的 ， 此 系统 有 以 下 几 个 目标 。 


O 便于 评价 和 分 析 区 域 气候 模式 模拟 输出 ， 其 可 以 通过 对 质量 受 
控 的 参考 数据 集 的 可 用 性 的 观察 和 对 各 种 传感器 的 分 析 理 解 进行 评价 和 
分 析 。 这 是 一 个 有 效 的 数据 库 结构 ， 是 一 组 用 于 计算 度量 模型 评价 指 
标 和 诊断 的 计算 工具 集合 ， 而 且 其 上 共有 可 伸缩 的 和 友好 的 用 户 界 面 。 


D 方便 汇集 大 量 的 复杂 和 异 构 软件 工具 和 数据 访问 的 功能 ， 用 于 
展示 、 和 重组、 重新 格式 化 和 可 视 化 ， 这 样 便于 将 如 偏差 图 这 样 的 最 终 产 
品 很 容易 地 传递 给 最 终 用 户 。 


O 支持 区 域 气 候 变 化 的 评 佑 ， 并 进行 影响 分 析 ， 而 且 还 需要 通知 
决 朱 者 (如 地 方 政 府 、 农 业 部 门 、 国 家 政府 、 水 文学 家 等 ) ， 这 样 他 们 
可 以 做 出 对 于 大 金融 和 社会 具有 重大 影响 的 重要 的 决 全 。 


D 可 以 克服 数据 格式 和 元 数据 的 异 构 性 的 问题 (例如 NetCDF3/4， 
CE 元 数据 规范 ，HDF4/5，HDF-EOS 元 数据 规范 ) 。 


O 处 理 时 空 差异 〈 如 将 数据 进行 180/80 的 经 纬度 分 析 ， 例 如 数据 可 
以 是 一 个 360/360 度 的 经 纬度 网 格 ) ， 并 确保 可 能 最 初 是 日 数据 的 数 
据 ， 是 可 以 和 月 数据 进行 对 比 的 。 


支持 弹性 扩展 ， 在 进行 区 域 研究 时 ， 需 要 特别 的 遥感 数据 和 气 
候 模型 输出 数据 ， 并 需要 进行 一 系列 的 分 析 ， 然 后 就 会 摧毁 特定 的 系统 


























实例 。 换 名 话说 ， 文 持 瞬 态 分 析 以 及 快速 构建 /解构 RCMES 实 例 。 图 23- 
2 显示 了 区 域 气候 模型 评价 系统 的 体系 结构 和 数据 流 。 
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图 23-2” JPL 架构 图 


为 实现 这 些 目标 ， 我 们 已 经 构建 了 一 个 多 层面 的 系统 ， 如 图 23-2 所 
示 。 从 左 到 右 看 下 这 个 图 ， 从 观测 采集 的 可 用 的 参考 数据 集 ， 特 别 是 从 
卫星 遥感 采集 的 数据 集 ， 根 据 用 于 评价 的 气候 模型 所 需 的 气候 参数 进入 





到 系统 。 这 些 参数 都 存储 在 各 种 任务 的 数据 集中 ， 这 些 数据 集 被 安置 在 
一 些 外 部 存储 库 中 ， 最 终 送 入 到 RCMES 系 统 的 数据 库 组 件 (RCMED: 
区 域 气候 模型 评价 数据 库 ) 中 。 


举 一 个 例子 ，AIRS 是 NASA 的 大 气 红外 探测 器 ， 其 可 以 提供 很 多 参 
数 ， 包 括 表面 空气 温度 、 温 度 和 重力 势 ，MODIS 是 NASA 的 热 感 成 像 光 
谱 仪 ， 其 可 以 的 提供 参数 包括 云 分 数 ， 而 TRMM 是 NASA 的 热 种 降雨 测 
量 任务 ， 其 提供 参数 包括 每 月 的 降雨 量 。 这 些 信息 是 在 我 们 RCMES 系 
统 网 站 上 都 进行 了 总 结 ， 网 址 是 http:/rcmes.jpl.nasa.govrcmed/param， 
如 图 23-3 所 示 。 
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图 23-3 ”JPL 物 理 架 构图 


数据 集 是 使 用 Apache OODT 抽 取 器 框架 加 载 到 RCMED 中 的 ， 其 所 
需 的 参数 ， 以 及 参数 值 、 空 间 和 时 间 约 束 (以 及 可 选 的 高 度 约 束 ) 都 被 装 
载 进去 了 ， 而 且 还 可 以 进行 潜在 的 更 改 〈 如 规范 化 ， 使 用 相同 的 坐标 系 
统 ， 从 不 同 单位 值 进 行 换算 ) ， 最 终 装载 到 一 个 MySQL 数 据 库 中 。 加 
载 到 MySQL 数 据 库 中 的 数据 、RCMED， 通 过 空间 /时 间 查 询 和 构造 子 集 
web 服 务 公开 给 外 部 客户 ， 具 体内 容 就 是 另 一 个 话题 了 。 对 于 所 有 的 意 
图 和 目的 ， 其 提供 了 和 OPeNDAP 同 样 的 功能 。 


右边 的 图 显示 的 是 区 域 气候 模型 评 佑 工具 包 (RCMET)。 其 为 用 户 提 
供 了 能 够 从 RCMED 和 在 其 他 地 方 产生 的 气候 模型 输出 数据 进行 引用 的 
能 力 ， 并 可 以 重组 这 些 数 据 ， 用 于 在 时 间 和 空间 上 进行 匹配 ， 并 将 模型 
数据 评估 的 模型 输出 与 用 户 选 择 的 参考 数据 进行 比较 参考 。 此 时 ， 系 统 











允许 按 照 季 节 性 周期 合成 (例如 ，N 年 的 所 有 一 月 份 ， 或 所 有 夏季 )， 并 
为 最 终 指 标 计 算 准 备 数据 ， 也 惑 是 说 ， 比 较 了 模型 输出 值 与 遥感 数据 观 
汕 参 数 及 其 值 。 系 统 文 持 多 种 指标 ， 如 侦 差 计算 、 均 方 根 误差 
(RMSE)， 并 生成 相关 的 可 视 化 图 形 ， 包 括 传统 的 饼 图 和 为 科学 使 用 / 决 
朱文 持 的 泰勒 图 。 


23.3.2 ”我 们 的 经 验 : 为 什么 使 用 Hive 


那么 ， 在 哪里 使 用 Hive 呢 ?在 载 入 了 60 亿 行 (经度 、 维 度 、 时 间 、 
数据 值 、 高 度 ) 数据 集 到 MySQL 后 ， 系 统 崩 尝 了 ， 并 经 历 过 数据 丢 
失 。 这 可 能 部 分 是 因为 我 们 最 初 的 策略 是 将 所 有 的 数据 都 存储 到 单一 的 
一 张 表 中 了 。 后 来 ， 我 们 调整 了 策略 通过 数据 集 和 参数 进行 分 表 ， 这 有 
所 帮助 但 也 因此 引入 了 额外 的 消耗 ， 而 这 并 非 是 我 们 愿意 接受 的 。 


相反 ， 我 们 决定 尝试 使 用 Apache Hive 技 术 。 我 们 安装 了 Hive 0.5 + 
20， 使 用 CDHv3 和 Apache Hadoop(0 20 2 + 320)。CDHv3 还 包含 有 许多 
其 他 相关 工具 ， 包 括 Sqgoop 和 Hue 这 些 在 我 们 的 架构 中 都 标识 出 来 了 ， 
如 图 23-3 底 部 所 示 。 


我 们 使 用 Apache Sqoop 转 储 数据 到 Hive 中 ， 然 后 通过 写 一 个 Apache 
OODT 包 装 器 ， 来 使 Hive 按 照 空 间 /时 间 约 束 查 询 数 据 ， 然 后 将 结果 提供 
给 RCMET 和 其 他 用 户 ( 图 23-2 中 间 部 分 显示 )。RCMES 集 群 的 完整 的 架 
构 如 图 23-3 所 示 。 我 们 有 5 人 台 机 器 ， 包 括 图 中 所 示 的 一 个 主 /从 配置 ， 通 
过 一 个 运行 GigE 的 私人 网 进行 连接 。 


23.3.3 ”解决 这 些 问 题 我 们 所 面临 的 挑战 


在 将 数据 从 MySQL 迁 移 到 Hive 的 过 程 中 ， 我 们 经 历 了 在 做 一 些 简 
单 的 任务 时 ， 响 应 时 间 绥 慢 的 问题 ， 例 如 一 个 简单 的 计数 DB 碍 询 ( 例 
如 :hive> select count(datapoint_id) from dataPoint)。 初 始 化 时 ， 我 们 回音 
个 表 中 载 入 了 25 亿 条 数据 ， 并 在 机 器 配置 信息 中 记录 下 来 ，Hive 对 这 25 
亿 条 记录 执行 计数 查询 用 了 大 约 5~6 分 钟 ，( 查 询 完 整 的 68 亿 条 记录 大 约 
需要 15~17 分 钟 )。Reduce 过 程 也 比较 快 (因为 我 们 使 用 的 是 一 个 对 于 * 的 
count 操 作 ， 所 以 我 们 会 经 历 一 个 reduce 阶 段 )， 但 是 map 阶 段 需 要 消耗 大 
部 分 的 时 间 ( 大 于 占 总 执行 时 间 的 95%)。 那 个 时 候 我 们 的 系统 由 6 个 系统 
(4 x 四 核 ) 组 成 ， 每 台 系 统 大 约 有 24 GB 的 RAM (所 有 的 机 器 如 图 23-3 所 
示 ， 再 加 上 一 个 从 另 一 个 集群 借 来 的 同类 型 的 机 器 )。 























我 们 试图 添加 更 多 的 节点 ， 增 加 map tasktrackers( 许 多 不 同 的 #s)， 
改变 DFS 块 大 小 (32MB、64MB、128 MB、256MB)， 利 用 LZO 压 缩 ， 并 
改变 许多 其 他 配置 变量 (例如 io、sort.factor、io.sort.mb)， 都 没有 有 效 地 
降低 完成 全 局 计数 所 需要 的 时 间 。 但 我 们 却 发 现 一 直 存 在 一 个 高 1/ OF 
待 节点 ， 而 无 论 我 们 执行 多 少 任务 。 数 据 库 的 大 小 大 约 是 200GB， 而 使 
用 MySQL 对 25 亿 和 67 亿 行 数据 执行 计数 只 需要 花 几 秒 钟 时 间 。 


Hive 社 区 成 员 加 入 到 了 我 们 公司 ， 为 我 们 提供 了 新 的 视角 ， 期 间 
HDFS 读 取 速 度 提高 到 大 约 60 MB / 秒 ， 对 比 本 地 磁盘 读 取 速 度 是 1 GB / 
秒 ， 这 当然 还 取决 于 网 络 速 度 和 namenode 的 负荷 情况 。 社 区 成 员 提出 的 
建议 是 ， 我 们 在 Hadoop 任 务 中 大 约 需 要 16 个 Mapper 才 能 和 一 个 本 地 非 
Hadoop 任 务 的 1/ O 性 能 相当 。 此 外 ，Hive 社 区 成 员 建 议 我 们 通过 减少 每 
个 Mapper 处 理 的 分 割 大 小 (输入 大 小 ) 来 增加 总 体 Mapper 的 数量 (也 就 是 
增加 并 发 量 )， 并 指出 我 们 应 该 检查 以 下 参数 : mapred.min.split.size、 
mapred.max.split.size 、mapred.min.split.size.per.rack 和 和 
mapred.min.split.size.per.node， 并 建议 这 些 参数 值 应 设置 为 64 MB。 最 
后 ， 社 区 建议 我 们 但 看 一 个 基准 计算 过 程 ， 也 就 是 通过 使 用 count(1) 而 
不 是 count (datapoint_id) 来 计算 行 数 ， 因 为 没有 列 引 用 意味 着 没有 序列 化 
和 有 反 序 列 化 的 过 程 ， 所 以 因为 前 者 更 快 ， 例 如 ， 如 果 用 户 的 表 是 RCFile 
格式 存储 的 。〈( 译 者 注 : 原文 是 后 者 更 快 ， 实 际 上 后 者 是 需要 序列 化 和 
反 序 列 化 过 程 的 。) 


基于 上 述 反 馈 ， 我 们 可 以 为 RCMES 的 Hive 集 群 基于 一 个 计数 基准 
查询 进行 调 优 ， 并 在 规定 的 响应 时 间 内 返回 一 个 计数 查询 ， 最 终 利 用 上 
述 资源 ， 可 以 在 15 秒 内 从 RCMET 中 对 数 十 亿 行 数据 进行 空间 /时 间 查 
询 ， 这 使 Hive 对 于 我 们 的 系统 架构 而 言 ， 成 为 一 个 可 行 的 和 绝 佳 的 选 


择 。 





























我 们 已 经 描述 了 在 JPL RCMES 系 统 中 使 用 Apache Hive 的 情况 。 我 
们 在 一 个 案例 研究 中 描述 了 我 们 想 要 通过 Hive 探 索 云 计算 技术 并 替代 
MySQL， 并 从 配置 需求 上 使 它 的 规模 水 平 可 以 存储 数 百 亿 行 数据 ， 并 
有 弹性 地 摧毁 和 重建 存储 于 其 中 的 数据 。 


Hive 很 好 地 满足 了 我 们 的 系统 需求 ， 而 我 们 正 积极 寻找 更 多 的 方法 
将 其 集成 到 RCMES 系 统 中 。 








23.4 Photobucket 


Photobucket 是 当前 因特网 上 最 大 的 专业 网 上 相 敌 服务 公司 。 其 在 
2003 年 由 Alex Welch 和 Darren Crystal 创 并， 随后 Photobucket 很 快 成 为 
互联 网 上 最 流行 的 网 站 之 一 ， 并 吸引 了 超过 一 亿 名 用 户 和 数 十 亿 的 存储 
和 共享 媒体 。 用 户 和 系统 数据 分 布 在 成 百 上 干 个 MySQL 实 例 上 、 成 干 
上 万 个 Web 服 务 器 上 和 PB 级 别 的 文件 系统 上 。 


23.4.1 Photobucket 公司 的 大 数据 应 用 情况 


在 2008 年 之 前 ，Photobucket 还 没有 专门 的 内 部 分 析 系 统 。 业 务 用 户 
提出 的 问题 横路 数 百 台 MySQL 实 例 并 最 终 在 Excel 中 手动 聚合 。 


在 2008 年 ，Photobucket 首 次 开始 着 手 实施 数据 仓库 建设 ， 致 力 于 解 
决 由 一 个 快速 增长 的 公司 所 带 来 的 日 益 复 杂 的 数据 处 理 问 题 。 


第 一 次 欠 代 的 数据 仓库 是 一 个 开源 的 系统 ， 包 括 一 个 Java SQL 优化 
器 和 一 组 底层 的 PostGreSQL 数 据 库 。 这 个 系统 直到 2009 年 都 工作 完好 ， 
但 是 其 架构 上 的 缺陷 很 快 明 显 凸 现 。 工 作 数 据 集 迅速 变 得 比 实 际 可 提供 
的 内 存 大 ， 再 加 上 在 PostgreSQL 节 点 上 重新 对 数据 进行 划分 非常 之 困 
难 ， 导 致 我 们 不 得 不 对 集群 进行 扩大 。 

在 2009 年 ， 我 们 开始 调查 系统 ， 使 我 们 能 够 随 着 数据 量 的 不 断 增长 
不 断 地 回 外 扩展 ， 使 之 仍然 能 够 满足 我 们 与 业务 用 户 签订 的 服务 等 级 协 
议 〈SLA) 。Hadoop 迅 速成 为 消费 和 分 析 每 日 由 系统 生成 的 TB 级 别 的 
数据 最 受 欢 迎 的 工具 ， 但 是 阻碍 全 面 使 用 的 一 个 负面 因素 就 是 对 于 简单 
的 ad-hoc 查 询 都 要 编写 复杂 的 MapReduce 程 序 。 值 得 庆幸 的 是 ， 
Facebook 几 周 后 开源 的 Hive 很 好 地 破解 了 这 个 ad-hoc 查 询 复 人 杂 的 问题 。 

Hive 相 对 于 以 前 的 数据 仓库 实现 具有 很 多 优势 。 

关于 为 什么 我 们 选择 Hadoop 和 Hive， 这 里 列举 了 几 个 例子 。 

D 能 够 处 理 结构 化 和 非 结 构 化 数据 。 


© 从 Flume、Scribe 或 MountableHDFS 中 实时 导数 据 到 HDFS 中 。 























© 可 以 通过 UDF 进 行 功 能 扩展 ，。 
@ 一 个 专门 为 构建 OLAP 与 OLTP 的 文档 充分 的 、 类 SQL 的 接口 。 
23.4.2 ”Hive 所 使 用 的 硬件 资源 信息 


对 于 数据 节点 使 用 Dell R410，4x2TB 硬 盘 ，24GB RAM; 对 于 管理 
节点 使 用 Dell R610，2x146GB (RAID 10) 硬盘 和 24GB RAM. 


23.4.3 Hive 提供 了 什么 


Photobucket 公 司 使 用 Hive 的 主要 目标 是 为 业务 功能 、 系 统 性 能 和 用 
户 行 为 提供 答案 。 为 了 满足 这 些 需求 ， 我 们 每 晚 都 要 通过 Flume 从 数 百 
台 服 务 器 上 的 MySQL 数 据 库 中 转 储 来 自 Web 服 务 器 和 目 定义 格式 日 志 
TB 级 别 的 数据 。 这 些 数据 有 助 于 支持 整个 公司 许多 组 织 ， 比 如 行政 管 
理 、 广 告 、 客 户 文 持 、 产 品 开 发 和 操作 ， 等 等 。 对 于 历史 数据 ， 我 们 保 
持 所 有 MySQL 在 每 月 的 第 一 天 创建 的 所 有 的 数据 作为 分 区 数据 并 保留 
30 天 以 上 的 日 志文 件 。Photobucket 使 用 一 个 定制 的 ETL 框 架 来 将 MySQL 
数据 库 中 数据 迁移 到 Hive 中 。 使 用 Flume 将 日 志文 件数 据 写 入 到 HDFS 中 
并 按照 预定 的 Hive 流 程 进行 处 理 。 


23.4.4 ” Hive 支持 的 用 户 有 哪些 


行政 管理 依赖 于 使 用 Hadoop 提 供 一 般 业 务 健康 状况 的 报告 。Hive 允 
许 我 们 解析 结构 化 数据 库 数据 和 非 结构 化 的 点 击 流 数据 ， 以 及 业务 所 涉 
及 的 数据 格式 进行 读 取 。 


广告 业务 使 用 Hive 筛 选 历 史 数 据 来 对 广告 目标 进行 预 出 和 定义 配 
额 。 产 品 开发 无 疑 是 该 组 织 中 产生 最 大 数量 的 特定 的 查询 的 用 户 了 。 对 
于 任何 用 户 群 ， 时 间 间 隅 变化 或 随时 间 而 变化 。Hive 是 很 重要 的 ， 因 为 
它 允 许 我 们 通过 对 在 当前 和 历史 数据 中 运行 A / B 测 试 来 判断 在 一 个 快速 
变化 的 用 户 环 境 中 新 产品 的 相关 特性 。 


在 Photobucket 公 司 中 ， 为 我 们 的 用 户 提 供 一 流 的 系统 是 最 重要 的 目 
标 。 从 操作 的 角度 来 看 ，Hive 被 用 来 汇总 生成 跨 多 个 维度 的 数据 。 在 公 
司 里 知道 最 流行 的 媒体 、 用 户 、 参 考 域 是 非常 重要 的 。 控 制 费用 对 于 任 
何 组 织 都 是 重要 的 。 一 个 用 户 可 以 快速 消耗 大 量 的 系统 资源 ， 并 显著 增 




















加 每 月 的 支出 。Hive 可 以 用 于 识别 和 分 析出 这 样 的 恶意 用 户 ， 以 确定 哪 
些 是 符合 我 们 的 服务 条 款 ， 而 哪些 是 不 符合 的 。 也 可 以 使 用 Hive 对 一 些 
操作 运行 A / B 测 试 来 定义 新 的 硬件 需求 和 生成 ROI 计 算 。Hive 将 用 户 从 
底层 MapReduce 代 码 解放 出 来 的 能 力 意 味 着 可 以 在 几 个 小 时 或 几 天 内 就 
可 以 获得 答案 ， 而 不 是 之 前 的 数 周 。 


23.5 SimpleReach 
Eric Lubow 


在 SimpleReach 中 ， 我 们 使 用 Cassandra 来 存储 我 们 所 有 的 社交 网 络 
产生 的 原始 数据 。 行 的 键 的 格式 是 一 个 账号 ID (其 也 是 MongoDB 的 
ObjectId〉 和 一 个 内 容 元 素 ID (被 跟 踩 的 内 容 元 素 的 URL 链 接 的 MD5 哈 
Ar) ， 这 两 者 间 使 用 下 划 线 进行 分 制 ， 结 果 集 中 的 数据 也 是 按照 这 个 
分 隅 符 进行 划分 的 。 这 行 中 的 列 是 类 似 于 如 下 展示 的 混合 在 一 起 的 一 组 


2 














4e87f81ca782F3404200000a_8c825814de0ac34bb9103e2193a5b824 
=> (column=meta:published-at, value=1330979750000, timestamp= 1338919372934628) 
=> (column=hour :1338876000000_digg-diggs, value=84, timestamp= 1338879756209142) 


=> (column=hour :1338865200000_googleplus-total, value=12, timestamp= 133886900773788 
8) 





为 了 能 够 访问 这 些 组 合 列 ， 我 们 需要 知道 列 名 对 应 的 十 六 进 制 键 的 
值 。 在 我 们 的 例子 中 ， 也 就 是 我 们 需要 执行 列 名 (meta:'published-at") 的 十 
六 进 制 的 键 值 。 这 个 十 六 进 制 键 和 值 的 形式 如 下 : 


00046D65746100000C7075626C69736865642D617400 =meta:published-at 


一 旦 将 列 名 转换 成 十 六 进 制 格式 ，Hive 查 询 就 可 以 对 之 进行 处 理 
了 。 查 询 语 句 的 第 一 部 分 是 LEFT SEMI JOIN， 其 用 于 模拟 一 个 子 查 询 
SQL。 后 面 所 有 的 使 用 SUBSTR 和 INSTR 的 引用 都 是 来 处 理 不 同情 况 的 
组 合 列 的 。 因 为 我 们 已 经 知道 “hour:*” 列 (例如 ， 
SUBSTR(r.column_name, 10, 13)) 的 第 10~ 第 23 个 字符 是 时 间 戳 ， 所 
以 我 们 可 以 将 其 截取 出 来 并 作为 返回 值 返 回 ， 或 者 用 作 其 他 对 比 。 
INSTR 用 于 对 比 列 名 并 保证 返回 的 结果 集 在 输出 中 总 是 位 于 相同 位 置 的 
相同 列 。 作 为 Ruby 函 数 的 一 部 分 的 SUBSTR 也 用 于 对 比 。SUBSTR 返 回 
值 是 一 个 以 毫秒 表示 的 时 间 惟 (ong 型 的 ) ，start_date 和 end_date 同 样 
是 这 样 的 以 毫秒 表示 的 时 间 惟 。 这 意味 着 传 入 的 值 可 以 作为 列 名 的 一 部 
分 进行 匹配 。 


这 个 查询 的 目的 是 将 数据 从 Cassandra 中 导出 成 CYS 文件， 最 终 为 我 
们 的 出 版 商 提 供 聚 合 后 的 数据 。 其 是 通过 我 们 Rails 栈 中 的 一 个 离线 处 理 
任务 完成 的 。 具 有 一 个 完整 的 CSV 文 件 意 味 着 Hive 碍 询 中 必须 要 包含 有 














所 有 的 使 用 到 的 列 的 列 名 这 意味 着 我 们 需要 在 没有 数据 的 地 方 补 上 数 
ti) 。 我 们 可 以 通过 使 用 CASE 语 句 将 我 们 的 宽 行 转换 成 固定 列 的 表 。 


如 下 是 处 理 CSV 文 件 的 HiveQL 语 句 : 





SELECT CAST(SUBSTR(r.column_name, 10, 13) AS BIGINT) AS epoch, 
SPLIT(r.row_key, '_')[@] AS account_id, 

SPLIT(r.row_key, '_')[1] AS id, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'pageviews-total') > 0 
THEN r.value ELSE '0' END AS INT)) AS pageviews, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'digg-digg') > 0 

THEN r.value ELSE '@' END AS INT)) AS digg, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'digg-referrer') > 0 
THEN r.value ELSE '0' END AS INT)) AS digg_ref, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'delicious-total') > 0 
THEN r.value ELSE '0' END AS INT)) AS delicious, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'delicious-referrer') > 0 
THEN r.value ELSE '0' END AS INT)) AS delicious_ref, 
SUM(CAST(CASE WHEN INSTR(r.column_name, 'googleplus-total') > 0 
THEN r.value ELSE '0' END AS INT)) AS google_plus, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'googleplus-referrer') > 0 
THEN r.value ELSE '0' END AS INT)) AS google_plus_ref, 
SUM(CAST(CASE WHEN INSTR(r.column_name, 'facebook-total') > 0 
THEN r.value ELSE '0' END AS INT)) AS fb_total, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'facebook-referrer') > 0 
THEN r.value ELSE '0' END AS INT)) AS fb_ref, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'twitter-tweet') > 0 
THEN r.value ELSE '0' END AS INT)) AS tweets, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'twitter-referrer') > 0 
THEN r.value ELSE '0' END AS INT)) AS twitter_ref, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'linkedin-share') > 0 
THEN r.value ELSE '0' END AS INT)) AS linkedin, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'linkedin-referrer') > 0 
THEN r.value ELSE '0' END AS INT)) AS linkedin_ref, 
SUM(CAST(CASE WHEN INSTR(r.column_name, 'stumbleupon-total') > 0 
THEN r.value ELSE '0' END AS INT)) AS stumble total, 
SUM(CAST(CASE WHEN INSTR(r.column_name, 'stumbleupon-referrer') > 0 
THEN r.value ELSE '0' END AS INT)) AS stumble_ref, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'social-actions') > 0 
THEN r.value ELSE '0' END AS INT)) AS social_actions, 
SUM(CAST(CASE WHEN INSTR(r.column_name, 'referrer-social') > 0 
THEN r.value ELSE '0' END AS INT)) AS social_ref, 

MAX(CAST(CASE WHEN INSTR(r.column_name, 'score-realtime') > 0 
THEN r.value ELSE '0.0' END AS DOUBLE)) AS score_rt 

FROM content_social_delta r 

LEFT SEMI JOIN (SELECT row_key 

FROM content 

WHERE HEX(column_name) = '00046D65746100000C7075626C69736865642D617400 ' 
AND CAST(value AS BIGINT) >= #{start_date} 

AND CAST(value AS BIGINT) <= #{end_date} 

) c ON c.row_key = SPLIT(r.row_key, '_')[1] 

WHERE INSTR(r.column_name, 'hour') > 0 

AND CAST(SUBSTR(r.column_name, 10, 13) AS BIGINT) >= #{start_date} 
AND CAST(SUBSTR(r.column_name, 10, 13) AS BIGINT) <= #{end_date} 
GROUP BY CAST(SUBSTR(r.column_name, 10, 13) AS BIGINT), 
SPLIT(r.row_key, '_')[O], 

SPLIT(r.row_key, '_')[1] 











这 个 查询 的 输出 是 以 逗号 分 陋 的 文件 《CSV 文 件 ) ， 内 容 如 下 面 例 
子 所 示 “〈 为 清晰 展示 对 输出 中 一 些 行进 行 了 转行 并 增加 了 空 行进 行 分 


Ka): 





epoch, account_id, id, pageviews, digg, digg_ref, delicious, delicious_ref, 
google_plus, google_plus_ref,fb_total, fb_ref, tweets, twitter_ref, 
linkedin, linkedin_ref, stumble_total, stumble_ref, social_actions, social_ref,score_rt 


1337212800000, 4eb331eea782F32acc000002, eaff81bd10a527f589f45c186662230e, 
39,0,0,0,0,0,0,0,2,0,20,0,0,0,0,0,22,0 


1337212800000, 4f63ae61a782f327ce000007, 940fd3e9d794b80012d3c7913b837dFF, 
101,0,0,0,0,0,0,44,63,11,16,0,0,0,0,55, 79, 69.64308064 


1337212800000, 4f6baedda782f325f4000010, e70f7d432ad252be439bc9cf1925ad7c, 
260,0,0,0,0,0,0,8, 25,15, 34,0,0,0,0, 23,59, 57.23718477 


1337216400000, 4eb331eea782F32acc000002, eaf f81bd10a527f589f45c186662230e, 
280,0,0,0,0,0,0, 37,162, 23,15,0,0,0,2,56,179, 72.45877173 


1337216400000, 4ebd76f7a782F30C9b000014, fb8935034e7d365e88dd5be1ed44bédd, 
11,0,0,0,0,0,0,0,1,1,4,0,0,0,0,0,5,29.74849901 





23.6 Experiences and Needs from the Customer 
Trenches 
标题 : 来 自 Karmasphere 的 视角 
— Nanda Vijaydev 

23.6.1 介绍 

在 超过 18 个 月 的 时 间 里 ，Karmasphere 一 直 忙 于 越 来 越 多 的 使 用 
Hadoop 的 公司 ， 这 些 公司 都 转向 使 用 Hive 作 为 分 析 师 团队 和 业务 团队 提 
供 服务 的 最 优 方式 。 本 章 的 第 一 部 分 说 明了 我 们 在 客户 环境 中 不 断 反 复 
使 用 Hive 进 行 分 析 的 一 些 实际 场景 的 使 用 技术 。 

我 们 所 涵盖 的 使 用 场景 例子 如 下 。 

D 为 Hive 提 供 最 优 数 据 格式 化 类 型 。 

@ 分 区 和 性 能 。 


© 使 用 Hive 函 数 〈 包 括 正 则 、Explode 函 数 和 连词 ) 进行 文本 分 
NT o 


随 着 我 们 一 直 合 作 的 公司 计划 并 生产 中 使 用 Hive， 他 们 一 直 在 寻找 
一 些 增强 功能 ， 使 基于 Hive 获 取 Hadoop 更 容易 使 用 、 更 富有 成 效 、 更 
强大 ， 而 且 可 以 让 他 们 的 组 织 中 更 多 的 人 进行 使 用 。 

当 他 们 将 Hadoop 和 Hive 加 入 到 他 们 现 有 的 数据 架构 中 后 ， 他 们 还 想 
让 从 Hive 查 询 的 结果 系统 化 、 可 以 进行 共享 并 可 以 集成 到 其 他 数据 存 
储 、 电 子 表格 、BI 工 具 和 报告 系统 中 。 

特别 地 ， 这 些 公司 有 如 下 要 求 。 

O 获取 数据 ， 检 测 原 始 格 式 ， 并 创建 元 数据 的 便捷 方法 。 


在 一 个 集成 的 、 多 用 户 环 境 下 协同 工作 。 




















O 探索 和 迭代 分 析 数 据 。 
D 可 保存 和 重用 路 径 。 
OE oe enue 


© 业务 用 户 不 需要 SQL 技 能 就 可 访问 并 进行 分 析 。 


. O 调度 查询 ， 并 将 生成 的 结果 自动 导出 到 非 Hadoop 的 数据 存储 


与 Microsoft Excel、Tableau、Spotfire 以 及 其 他 电子 表格 、 报 告 系 
统 、 仪 表 板 、BI 工 具 进 行 集成 。 


© 可 以 管理 基于 Hive 的 功能 ， 包 括 进 行 查询 、 结 果 输 出 、 可 视 化 以 
及 Hive 的 标准 组 件 ， 如 UDF 和 SerDe。 


23.6.2 Customer Trenches 和 的 用 例 
1. Customer trenches #1: 为 Hive 优 化 存储 格式 


许多 Hive 用 户 反 复 反 馈 的 一 个 问题 就 是 Hive 中 的 数据 使 用 什么 存储 
格式 进行 存储 以 及 如 何 使 用 这 些 数据 。 


Hive 本 号 内 置 可 以 文 持 许多 种 数据 格式 ， 但 有 一 些 上 自 定 义 的 专 有 格 
式 束 不 文 持 了 。 有 一 些 数据 格式 文 持 为 用 户 解 决 如 何 从 一 个 行 数据 中 所 
取出 独立 的 部 份 。 有 时 候 ， 写 一 个 标准 的 HiveSerDe 来 文 持 一 个 目 定 义 
的 数据 格式 是 最 优 方 法 。 而 在 其 他 情况 下 ， 使 用 现 有 的 Hive 分 隅 符 和 
Hive UDF 可 能 是 最 方便 的 解决 方案 。 我 们 合作 地 使 用 Hadoop 来 提供 个 
性 化 服务 ， 并 使 用 Hive 对 多 个 输入 数据 流 进行 分 机 。 公 司 的 一 个 有 代表 
性 的 案例 就 是 : 他 们 收 到 的 是 来 自 他 们 的 一 个 日 志 数 据 提供 者 的 格式 ， 
而 这 种 格式 不 能 轻易 地 分 裂 成 列 。 他 们 试图 想 出 一 个 办 法 使 得 无 需 编 写 
一 个 目 定义 SerDe 就 可 以 解析 数据 并 运行 查询 。 


数据 包含 顶层 的 头 信息 和 底层 的 多 个 详细 信息 。 详 细 信息 部 分 是 一 
个 舱 套 在 顶级 对 象 中 的 JSON 对 象 ， 类 似 于 如 下 这 样 的 数据 集 : 


{ "top" 0 [ 




















{"table": "user", 
"data": 
"name":"John Doe", "userid":"2036586", "age":"74", "code":"297994", "status":1}}, 
{"table": "user", 
"data": { 
"name":"Mary Ann", "userid":"14294734", "age": "64", "code":"142798", "status":1}}, 
{"table": "user", 
"data": { 
"name": "Carl Smith", "userid":"13998600","age":"36","code":"32866", "status":1}} 


了 
{"table": "user", 
"data": { 
"name":"Anil Kumar":"2614012", "age": "69", "code":"208672", "status":1}}, 
"table": "user" 
r "data": { 
"name":"Kim Lee", "userid":"10471190", "age": "53", "code":"79365", "status":1}} 


]} 





与 客户 交谈 后 ， 我 们 音 识 到 他 们 感 兴趣 的 是 上 面 的 示例 中 “data” 标 
签 下 的 详细 字段 信息 。 


为 帮助 他 们 解决 这 个 问题 ， 我 们 使 用 Hive 中 目 融 的 函数 
get_json_object， 使 用 方法 如 下 。 


第 一 步 是 创建 一 个 表 ， 其 使 用 的 是 样本 数据 : 


CREATE TABLE user (line string) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\n' 


STORED AS TEXTFILE 
LOCATION ‘hdfs://hostname/user/uname/tablefolder/’ 





然后 使 用 Hive 等 功能 得 到 JSON 对 象 ， 我 们 可 以 得 到 的 舱 套 JSON 元 
素 并 使 用 UDF 对 其 进行 解析 : 


SELECT get json object(col0, '$.name') as name, get_ json object(col0, '$.userid') as 

uid, 

get_json_object(col0, '$.age') as age, get_json_object(colO®, '$.code') as code, 
get_json_object(col0, '$.status') as status 


FROM 


(SELECT get_json_object(user.line, '$.data') as col 
FROM user 


WHERE get_json_object(user.line, '$.data') is not null) temp; 
查询 详细 信息 如 下 。 


a. 在 内 部 查询 中 提取 以 ‘data’ 作 为 标识 舱 套 的 JSON 对 象 ， 并 将 其 取 
别名 为 col0。 


b. 然后 将 JSON 对 象 分 成 适当 的 列 并 使 用 它们 的 标记 名 作为 对 应 的 





列 别名 。 
查询 结果 如 下 ， 这 是 一 个 CSV 文 件 ， 其 中 第 一 行 是 字段 名 称 : 


"name", "uid", "age", "code", "status" 
"John Doe", "2036586", "74", "297994", "1" 


"Mary Ann", "14294734", "64", "142798", "1" 
"Carl Smith", "13998600", "36","32866", "1" 
"Kim Lee", "10471190", "53", "79365", "1" 





2. Customer trenches #2: 分 区 和 性 能 


使 用 分 区 来 保存 通过 数据 流 或 定期 添加 到 Hadoop 的 数据 是 一 个 最 近 
我 们 看 到 多 次 的 用 例 ， 而 这 是 一 个 利用 Hadoop 和 Hive 来 分 析 各 种 快速 添 
加 进来 的 数据 集 强 大 而 非常 有 价值 的 方式 。Web、 应 用 、 产 品 和 传感器 
日 志 这 些 数据 ， 只 是 Hive 用 户 经 党 需要 ad-hoc、 重 复 执行 和 预定 碍 询 的 
数据 。 

Hive 分 区 在 正确 设置 后 ， 可 以 允许 用 户 碍 询 仅 在 特定 的 分 区 下 的 数 
据 ， 从 而 将 极 大 地 提高 性 能 。 当 为 表 建 立 分 区 时 ， 文 件 应 该 位 于 类 似 如 
PRIS Hes Hn Ase E: 


hdfs://user/uname/folder/"yr"=2012/"mon"=01/"day"=01/file1, file2, file3 
/"yr"=2012/"mon"=01/"day"=02/file4, filed 








/"yr"=2012/"mon"=05/"day"=30/file100, file101 





通过 上 述 目录 结构 ， 我 们 可 以 看 到 表 可 以 设置 年 、 月 和 日 来 设置 分 
区 。 和 碍 询 的 时 候 可 以 使 用 wr、mon、 和 day 作 为 过 滤 字 段 ， 同 时 也 可 以 限 
制 在 特定 的 查询 时 间 访 问 特 定 的 值 下 面 的 数据 。 我 们 可 以 观察 下 路 径 中 
人 

在 和 一 个 高 科技 公司 合作 时 ， 我 们 发 现 他 们 的 文件 夹 没 有 这 个 明确 
的 分 区 命名 ， 而 且 他 们 不 能 改变 他 们 现 有 的 目录 结构 。 但 他 们 仍然 希望 
受益 于 分 区 。 他 们 的 样品 目录 结构 如 下 所 示 : 








hdfs://user/uname/folder/2012/01/01/file1, file2, file3 
/2012/01/02/file4, filed 





/2012/05/30/file100, file101 


在 这 种 情况 下 ， 我 们 仍然 可 以 通过 使 用 ALTER table 语 句 显 式 地 添 
加 分 区 并 为 表 添加 绝对 路 径 位 置 。 一 个 简单 的 外 部 脚本 可 以 读 取 目 录 并 
为 ALTER TABLE 语 句 中 添加 yr=、mon=、day= 这 样 的 信息 并 提供 对 应 
的 有 效 的 具体 的 文件 夹 名 称 (如 yr=2012， mon=01，...)。 脚 本 的 输出 是 
一 组 使 用 具体 的 目录 结构 的 Hive SQL 语句 ， 而 且 保存 在 一 个 简单 的 文本 
文件 中 。 
ALTER TABLE tablename 
ADD PARTITION (yr=2012, mon=01, day=01) location '/user/uname/folder/ 2012/01/01/'; 


ALTER TABLE tablename 
ADD PARTITION (yr=2012, mon=01, day=02) location '/user/uname/folder/ 2012/01/02/'; 


ALTER TABLE tablename 
ADD PARTITION (yr=2012, mon=05, day=30) location '/user/uname/folder/ 2012/05/30/'; 





当 在 Hive 中 执行 这 些 语句 时 ， 指 定 的 目录 下 的 数据 就 会 出 现在 使 用 
ALTER TABLE 语 句 创 建 并 定义 的 逻辑 分 区 中 。 


Si 提示 
用 户 应 该 确保 表 是 通过 PARTITIONED BY 语句 为 年 、 月 和 日 
创建 分 区 字段 的 。 


3. Customer trenches #3: 使 用 Regex. Lateral View Explode、Ngram 
和 其 他 一 些 UDF 进行 文本 分 析 

许多 与 我 们 合作 的 公司 都 有 文本 分 析 的 场景 ， 包 括 简 单 到 复杂 的 
情况 。 理 解 和 使 用 Hive regex 函 数 、 范 式 和 其 他 字符 串 处 理 函 数 可 以 解 
决 大 量 的 此 类 使 用 场景 。 


一 个 与 我 们 合作 的 大 型 制造 业 客 户 有 很 多 机 器 生成 压缩 文本 数据 存 
储 到 了 Hadoop 中 。 这 个 数据 的 格式 如 下 。 


O 每 个 文件 中 具有 多 行 数据 ， 而 一 个 按照 时 间 分 区 的 数据 桶 内 包 
含有 许多 这 样 的 文件 。 


D 每 一 行 数据 都 有 许多 按照 /r/n〈 回 车 和 换行 ) 进 行 划 分 的 列 。 





O 每 列 数据 的 形式 是 一 个 “名 称 : 值 ? 对 。 
用 例 的 要 求 如 下 。 
D 读 取 每 一 行 数据 并 将 每 列 转换 成 “名 称 - 值 ”对 。 


O 在 特定 的 列 中 ， 进 行 词 频 统 计 和 单词 模式 分 析 来 分 析 关 键 词 和 
特定 的 消息 内 容 。 


下 面 的 示例 展示 了 这 个 客户 的 样本 数据 资料 〈 其 中 省 略 了 一 些 文本 
容 ) : 








:Mercury\r\ndescription:Mercury is the god of commerce, ...\r\ntype: Rocky plane 


:Venus\r\ndescription:Venus is the goddess of love...\r\ntype:Rocky planet 
:Earch\r\ndescription:Earth is the only planet ...\r\ntype:Rocky planet 
:Mars\r\ndescription: Mars is the god of War...\r\ntype:Rocky planet 


:Jupiter\r\ndescription: Jupiter is the King of the Gods...\r\ntype: Gas planet 
:Saturn\r\ndescription:Saturn is the god of agriculture...\r\ntype: Gas planet 
:Uranus\r\ndescription:Uranus is the God of the Heavens...\r\ntype: Gas planet 
:Neptune\r\ndescription:Neptune was the god of the Sea...\r\ntype:Gas planet 








数据 具有 如 下 几 方面 特点 。 
D 行星 的 名 字 和 他 们 的 包含 类 型 的 描述 信息 。 
D 每 一 行 的 数据 是 由 一 个 分 隔 符 分 隔 。 


© 在 每 一 行 有 3 个 部 分 ， 包 括 "名 称 "、“ 描 述 * 和 "类 型 "， 按 照 /rya 
进行 字段 划分 。 


@ 其 中 “描述 "是 一 个 大 的 文本 内 容 。 
一 步 是 使 用 此 示例 数据 创建 初始 表 ; 





CREATE TABLE planets (col0 string) 


ROW FORMAT DELIMITED FIELDS TERMINATED BY '\n' 
STORED AS TEXTFILE 
LOCATION 'hdfs://hostname/user/uname/planets/' 


接 下 来 ， 我 们 运行 一 系列 的 查询 ， 从 一 个 使 用 了 函数 的 简单 的 查询 
开始 。 需 要 注意 的 是 用 几 种 不 同 的 方式 编写 的 查询 来 满足 相同 的 需求 。 
如 下 查询 语句 的 目的 是 演示 Hive 对 文本 解析 一 些 关 键 功能 。 











首先 ， 我 们 使 用 一 个 split 函 数 来 将 数据 划分 的 不 同 列 保存 到 数组 中 : 


接 下 来 ， 我 们 LATERAL VIEW EXPLODE 函数 来 将 划分 (也 就 是 
这 个 数组 ) 进行 展开 。 这 个 查询 的 结果 将 是 每 行 都 是 一 个 “名 称 - 
值 ? 对 。 我 们 只 选择 那些 以 "desc* 开 头 的 行 。LITRIM 这 个 函数 是 用 来 去 除 
左 端的 空白 字符 的 。 





SELECT ltrim(splits) AS pairs FROM planets 
LATERAL VIEW EXPLODE(split(col0, '(\\\\r\\\\n)')) colO AS splits 





WHERE ltrim(splits) LIKE 'desc%' 


现在 我 们 描述 的 信息 转换 成 了 “名 称 - 值 ? 对 ， 并 选择 有 值 的 数据 。 
这 可 以 以 不 同 的 方式 完成 的 。 我 们 使 用 根据 “: ?进行 分 割 并 选择 “ 值 ? 那 
部 分 数据 : 
SELECT (split(pairs, ':'))[1] AS txtval FROM ( 


SELECT ltrim(splits) AS pairs FROM planets 
LATERAL VIEW EXPLODE(split(col0, '(\\\\r\\\\n)')) colO AS splits 








WHERE ltrim(splits) LIKE 'desc%')tmp1; 











需要 注意 的 是 对 于 内 部 得 询 我 们 使 用 了 临时 标识 符 tmp1。 当 用 户 使 
用 子 查 询 的 输出 作为 外 层 碍 询 的 输入 时 ， 使 用 别名 是 必须 的 。 步 又 3 处 
理 后 ， 我 们 获取 到 “描述 ”中 每 一 行 的 “ 值 ”* 部 分 的 数据 。 


在 接 下 来 的 步骤 中 ， 我 们 使 用 ngrams 函 数 来 显示 行星 描述 名 称 前 10 
双 字 母 组 名 单词 。 用 户 也 可 以 使 用 如 context_ngram、find_in_set、 
regex_replace 和 其 他 各 种 各 样 的 基于 文本 分 析 的 函数 : 
SELECT ngrams(sentences(lower(txtval)), 2, 10) AS bigrams FROM ( 


SELECT (split(pairs, ':'))[1] AS txtval FROM ( 
SELECT ltrim(splits) AS pairs FROM planets 





LATERAL VIEW EXPLODE(split(col0, '(\\\\r\\\\n)')) colO AS splits 
WHERE ltrim(splits) LIKE 'desc%') tmp1) tmp2; 





需要 注意 的 是 ， 我 们 已 经 使 用 了 像 lower 这 样 的 函数 来 将 大 写字 母 
全 部 转换 成 小 写 ， 以 及 使 用 sentences 函 数 将 文本 中 内 容 分 割 成 单词 。 


关于 Hive 中 文本 分 析 函 数 的 更 多 信息 ， 可 以 参考 第 3 章 中 列举 的 函 





生产 环境 下 的 Apache Hive: 快速 增长 的 需求 和 能 


Hive 会 保持 继续 成 长 ， 正 如 前 面 所 定义 的 使 用 场景 所 展示 的 。 在 不 
同行 业 和 不 同 规模 的 公司 都 将 在 Hadoop 环 境 中 使 用 Hive 而 受益 无 穷 。 一 
个 强大 和 积极 的 贡献 者 社区 ， 以 及 由 Hadoop 领 先 供 应 商 提供 的 重大 的 研 
发 投资 ， 都 将 确保 Hive 已 经 是 Hadoop 之 上 的 基于 SQL 的 标准 了 ， 它 将 会 
成 为 利用 Hadoop 为 大 数据 分 析 的 标准 组 织 中 基于 SQL 处 理 的 标准 。 


随 着 公司 投入 大 量 资源 和 时 间 来 理解 和 构建 Hive 资 源 ， 在 很 多 情况 
下 ， 我 们 发 现 他 们 寻找 额外 的 能 力 ， 使 他 们 能 够 建立 在 他 们 的 初始 使 用 
Hive 的 基础 之 上 ， 并 达到 更 快 的 扩展 、 在 他 们 的 组 织 内 更 广泛 的 应 用 。 
从 处 理 这 些 客户 希望 Hive 进 化 到 到 下 一 个 级 别 的 需求 中 ， 有 一 套 共 同 的 
需求 已 经 出 现 了 。 这 些 需求 包括 如 下 几 方 面 。 


D 多 用 户 环境 协作 。Hadoop 提 供 了 相对 于 传统 的 RDBMS 的 新 的 分 
析 类 别 ， 在 计算 能 力 和 成 本 上 都 具有 优势 。 使 用 Hadoop， 组 织 机 构 可 以 
将 数据 和 人 进行 分 离 ， 可 以 在 他 们 可 获取 的 每 个 字 节 的 数据 上 执行 分 
析 ， 这 些 都 通过 一 种 方式 ， 可 以 使 他 们 能 够 与 其 他 个 体 、 团 队 、 组 织 和 
系统 分 享 他 们 的 查询 结果 和 见解 。 这 个 模型 意味 着 为 用 户 提供 深入 理解 
震 要 合作 发 现 这 些 不 同 的 数据 集 ， 再 分 享 见解 和 整个 组 织 中 基于 Hive 分 
9 可 用 性 。 


@ 增强 生产 力 。Hive 的 当前 的 实现 提供 了 一 个 在 Hadoop 之 上 的 系 
列 批 处 理 环境 。 这 意味 着 ， 一 旦 用 户 同 Hadoop 集 群 中 提交 一 个 查询 作 
业 ， 他 们 必须 等 待 得 询 完成 之 后 才能 癌 集 群 提 交 并 执行 吃 一 个 得 询 。 这 
可 以 限制 用 户 的 生产 力 。 企 业 采 用 Hive 的 一 个 主要 原因 是 ， 它 使 他 们 的 
SQL 技 术 数 据 专业 人 员 可 以 更 快 和 更 容易 使 用 Hadoop。 这 些 用 户 通 第 区 
芒 SQL 编 辑 工 具 和 BI 产品 。 他 们 正在 寻找 类 似 的 生产 力 环境 例如 增强 语 
iA se AAI B FER o 


© Hive E. ZA R TREN T 
乏 熟 练 的 工人 ， 可 以 显著 降低 使 组 织 件 利 。 像 Hive 这 样 的 技术 通过 人 允许 
人 们 在 Hadoop 可 以 用 SQL 技能 进行 分 析 来 解决 技能 短缺 问题 。 然 而 ， 组 
织 意 识 到 仅仅 让 他 们 的 用 户 使 用 Hive 是 不 够 的 。 他 们 需要 能 够 管理 Hive 
资产 ， 如 查询 语句 (包含 历史 操作 和 版 本 信息 ) 、 众 多 的 UDF、SerDe 
等 ， 可 以 在 以 后 进行 分 享 和 重用 。 组 织 想 要 构建 这 个 Hive 资 产 的 知识 存 
储 库 ， 而 且 用 户 可 以 很 容易 搜索 到 。 




















D 为 先进 的 分 析 技 术 对 Hive 进 行 扩 展 。 许 多 公司 正在 寻找 在 
Hadoop 中 重建 他 们 在 传统 的 RDBMS 中 分 析 的 系统 。 虽 然 并 不 是 SQL 环 
境 的 所 有 功能 都 很 容易 转化 为 Hive 函 数 ， 其 中 一 些 是 因为 数据 存储 的 固 
有 局 限 性 ， 有 一 些 高 级 分 析 功 能 〈 像 RANK， 等 等 ) ， 这 些 Hadoop 是 可 
以 进行 处 理 的 。 此 外 ， 组 织 使 用 传统 工具 如 SAS 和 SPSS 花 了 巨大 的 资源 
a 并 希望 能 够 在 Hadoop 通 过 Hive 查 询 更 好 地 使 
用 这 些 模型 。 


©) SQL 技 能 外 扩展 Hive。 因 为 Hadoop 在 组 织 中 积蓄 了 大 量 优势 ， 
并 成 为 一 个 IT 基础 设施 之 上 的 关键 的 数据 处 理 和 分 析 架 构 ， 这 在 具有 不 
同 的 技能 和 能 力 的 用 户 当 中 很 流行 。 尽 管 Hive 很 容易 适应 具有 SQL 技能 
的 用 户 ， 其 他 的 懂得 SQL 并 不 多 的 用 户 也 在 寻求 可 以 在 基于 Hadoop 的 
Hive 上 像 在 传统 的 BI 工具 中 通过 拖 拖 搜 搜 就 可 以 执行 分 析 的 功能 。 能 够 
在 Hive 之 上 支持 交互 式 表单 ， 能 够 通过 简单 的 基于 Web 的 形式 提示 用 户 
提供 的 列 值 是 一 种 常见 的 功能 。 


© 数据 探索 能 力 。 传 统 的 数据 库 技 术 提供 数据 浏览 功能 。 例 如 ， 
一 个 用 户 可 以 碍 看 一 个 整数 列 的 最 小 值 ， 最 大 值 。 此 外 ， 用 户 还 可 以 通 
过 可 视 化 的 方式 查看 这 些 列 ， 在 他 们 执行 分 析 数 据 之 前 理解 数据 分 布 。 
因为 Hadoop 存 储 了 数 百 TB 的 数据 ， 并 且 通 党 是 PB 级 别 的 ， 对 于 特定 的 
使 用 场景 ， 顾 客 需要 类 似 的 功能 。 


O 调度 和 操作 Hive 碍 询 。 当 公司 使 用 具有 Hadoop 的 Hive 发 现 了 一 
些 深刻 见解 时 ， 他 们 也 在 寻求 实施 这 些 见 解 和 安排 在 一 个 正则 区 间 运 行 
这 些 查 询 。 虽 然 目前 已 经 有 了 可 用 的 开源 替代 方案 ， 但 当 公 司 也 想 管理 
Hive 查 询 的 输出 时 就 会 功 亏 一 筑 。 例 如 ， 将 结果 集 转移 到 一 个 传统 的 
RDBMS 系 统 或 BI 堆栈 。 管 理 特定 的 用 例 ， 公 司 通 常 必须 手工 串 起 各 种 
不 同 的 开源 工具 或 依靠 可 怜 的 JDBC 连 接 器 进行 执行 。 

(8) 关于 Karmasphere。Karmasphere 是 一 家 软件 公司 ， 位 于 加 州 硅 
谷 ， 专 注 于 帮助 分 析 师 团队 和 业务 用 户 使 用 Hadoop 的 大 数据 分 析 能 
他 们 的 旗舰 产品 ，Karmasphere 2.0， 是 基于 Apahce Hive 的 ， 并 扩展 实现 
了 多 用 户 图 形 化 工作 空间 。 

a. 重用 标准 的 Hive 表 、SerDe 和 UDF。 


2 - 为 分 析 师 团队 和 业务 用 户 提 供 社交 化 的 、 基 于 项 目的 大 数据 分 
服务 。 





























c， 可 以 方便 和 其 他 集群 进行 数据 整合 。 

d， 基 于 局 发 式 的 识别 和 提供 多 种 流行 的 数据 存储 格式 来 创建 表 。 
e. FY ALAC MIE (RCRA BTR ZR AT 

f. 图 形 化 的 对 基于 Hive 的 数据 集 进行 分 析 探 索 。 

g 可 以 共 译 和 调度 伍 询 以 及 结果 ， 并 提供 可 视 化 操作 和 展示 。 





h. 和 传统 表格 、 报 表 、 仪 表盘 、BI 工 具 很 容易 进行 集成 整合 。 


图 23-4 展 示 了 Karmasphere 2.0 的 基于 Hive 的 大 数据 分 析 环 境 的 操作 
界面 截图 。 





KARMASPHERE 
: My Analytics Workspace : 
© My Recent Activity 年 My Projects @ Recent Activity 
06/01/12 fa en 
Product Use 16/04/12 ==> Products Use 3:58:11 Nanda saved resultset 
Q Saved query Machine and device event log. 13:58:11 = D Analyze the different usage patterns of the | 
oduct. Martin Hall saved quer.. 
produc 
Product Error Logs & Support 16/03/12 Cos published query to... 
Saved visualization Geo Location Analysis. :33:25 05/21/12 Q 
= Product Error Logs & Support 3:08:08 (A Manish saved query cu... 
©) Correlation analysis of CRM data and 
Product Use 06/02/12 product error logs. $] Rich Guth scheduled q.. 
~“ Saved result set Device usage by Geo 0:52:5S 
| location. E Gil saved resultset web... 
05/29/12 
= R&D Feedback 5:32:24 E cise saved viuatizatio... 
R&D Feedback 5/31/12 E Streamline product and device logs to = 
Saved visualization Clickstream analysis. 19:34:28 imnraun DAN prococc and radiuea naske a Mike saved resultset pr... 
Abe saved query defect.. 
Product Error Logs & Support 06/02/12 = My Results 
全 > Saved visualization Social media data and 2:10:45 u Neena saved resultset ... 
CRM application analysis. 
A Tom saved visualization.. 


pea Product Use Patterns 
R&D Feedback 5/25/12 Popular product use paths. 
Saved visualization Demogrpahic Analysis. 45:23 


人 E sc saved resultset ti... 
A Manish saved query re... 
Se High Priority Bugs 15/29/12 
| == R&D Feedback 05/22/12 Device logs, Product logs & CRM data. mamas B varaa saved query de.. 
Q Saved query Cross-davice game usage data. 6: 34 
LES Abe saved resultset def.. 
EF Bug Report by Customer Priority 05/25/12 
„a Product Error Logs & Support 15/27/12 == Bugs from top 50 revenue accts. ics IB martin shared visualizat... 
oe Saved resultset Call home machine logs by 
error type. A Tom scheduled query c. 


A Elise shared query sadi. 


图 23-4 Karmasphere 2.0 的 屏幕 截图 


© Hive 特 性 调查 。 对 于 这 些 需 求 我 们 期 望 能 得 到 反馈 并 最 终 能 在 快 


速 发 展 的 Hive 社 区 中 进行 分 享 。 如 果 你 有 兴趣 看 看 别人 的 想法 的 话 ， 那 
么 请 访问 如 下 链接 : http://karmasphere.com/hive-features-survey.html。 





[1 ]http://www.r-bloggers.com/taking-r-to-the-limit-large-datasets-predictive- 
modeling-with-pmml-and-adapa/. 


[2] 关 于 广义 相 加 模型 《GAM) 的 更 多 细 市 信息 请 参考 Hastie 等 人 在 2001 
年 发 布 的 用 于 分 析 的 GAM 实 现 的 R 包 ， 这 个 神奇 的 包 可 以 通过 如 下 链接 
进行 下 载 : http://cran.r-project.org/。 





术语 词汇 表 
亚马逊 弹性 MapReduce (EMR) 


亚马逊 的 EMR 是 基于 亚马逊 EC2 (弹性 计算 云 ) 的 托管 Hadoop 服 


Avro 


Avro 是 一 个 新 的 序列 化 格式 ， 其 用 于 解决 一 些 其 他 序列 化 格式 演变 
过 程 中 及 现 的 第 见 问 题 。 使 用 它 的 一 些 好 处 是 其 具有 丰富 的 数据 结构 、 
快速 的 三 进 制 格 式 ， 支 持 远程 过 程 调用 ， 而 且 内 置 模式 演化 。 


Bash 














Bash 是 Linux 和 和 Mac OS XRRR AMOT H shell. 
S3 中 的 数据 桶 


数据 桶 是 使 用 S3 时 用 户 可 以 具有 和 管理 的 最 顶层 容器 的 术语 。 一 个 
用 户 可 以 具有 很 多 的 数据 桶 ， 其 类 似 于 物理 硬盘 的 root 根 目录 。 


命令 行 交 互 界 面 CCLI) 


命令 行 交 互 界 面 〈 也 就 是 CLI) 是 指 可 以 执行 Hive 语 名 “脚本 ”并 和 
用 户 输入 信息 进行 交互 的 命令 行 界面 。 

数据 仓库 

数据 仓库 指 用 于 报告 、 趋 势 等 分 析 的 一 组 结构 化 数据 组 成 的 库 。 数 
据 仓 库 可 以 提供 数据 批 处 理 ， 是 离线 的 ， 而 不 是 像 电子 商务 这 样 提 供 实 
时 响应 能 力 的 系统 。 

Derby 


Derby 是 一 个 轻 量 级 的 SQL 数据 库 ， 其 可 以 人 鞭 入 到 Java 应 用 程序 中 。 





其 运行 在 相同 的 进程 中 并 将 数据 存储 到 本 地 文件 中 。Hive 元 数据 存储 中 
默认 使 用 Derby 作 为 元 数据 库 。 可 以 访问 http:/db.apache.org/derby/ 获 得 
更 多 信息 。 


动态 分 区 


动态 分 区 是 HiveQL 对 于 SQL 一 个 扩展 。 使 用 动态 分 区 可 以 允许 用 户 
将 碍 询 结果 插入 到 表 分 区 中 ， 而 分 区 字段 是 一 个 或 者 多 个 不 同 的 分 区 列 
值 ， 具 体 的 分 区 值 将 由 查询 结果 动态 地 生成 。 使 用 动态 分 区 可 以 非常 方 
便 地 将 查询 结果 写 入 到 新 表 的 大 量 分 区 中 ， 而 无 需 为 每 个 分 区 列 值 都 写 
一 个 单独 的 查询 语句 。 


Ephemeral Storage 临时 性 存储 


对 于 虚拟 亚马逊 EC2 集 群 的 节点 ， 节 点 上 的 硬盘 存储 空间 就 被 称 为 
临时 性 存储 。 这 是 因为 和 普通 的 物理 存储 集群 不 同 ， 当 这 类 集群 关闭 后 
这 些 存 储 数 据 就 会 被 清除 掉 。 因 此 ， 当 使 用 EC2 集 群 ， 例 如 亚马逊 弹性 
MapReduce 集 群 时 ， 要 注意 将 重要 的 数据 备份 到 S3 上 。 


外 部 表 


外 部 表 指 使 用 不 在 Hive 控 制 范 围 内 的 存储 路 径 和 内 容 的 表 。 使 用 外 
部 表 会 比较 方便 将 数据 和 其 他 工具 共享 ， 但 是 需要 其 他 的 处 理 过 程 来 管 
理 数 据 的 生命 周期 。 也 就 是 说 ， 当 创建 了 一 个 外 部 表 时 ，Hive 并 没有 创 
建 这 个 外 部 存储 路 径 〈 对 于 分 区 表 的 话 还 应 包括 分 区 路 径 文件 炎 ) ， 同 
样 地 ， 当 删除 外 部 表 后 ， 并 不 会 删除 外 部 路 径 下 的 数据 。 

Hadoop 分 布 式 文件 系统 CHDFS) 

Hadoop 分 布 式 文件 系统 “HDFS) 是 一 个 用 于 数据 存储 的 分 布 式 
的 、 弹 性 的 文件 系统 。HDFS 被 优化 为 可 以 快速 扫描 硬盘 上 大 的 连续 的 
数据 块 。 集 群 中 的 分 布 式 提供 了 数据 存储 的 横 回 扩展 。HDFS 文 件 的 数 
据 块 在 集群 内 会 被 复制 成 多 份 〈 默 认 情 况 下 是 3 份 ) 来 防止 当 磁 盘 坏 掉 
或 者 整个 服务 器 坏 掉 时 的 数据 丢失 。 

HBase 


HBase 是 使 用 HDFS 作 为 持久 化 存储 表 数 据 的 NoSQL 数 据 库 。HBase 


























是 列 式 的 键 - 值 对 存储 的 设计 ， 用 于 提供 传统 的 快速 啊 应 查询 和 行 级 别 
的 数据 更 新 和 插入 。 列 式 存储 意味 着 磁盘 上 的 数据 存储 是 按照 多 组 列 够 
成 的 ， 也 就 是 列 族 ， 而 不 是 按照 行 来 组 织 的 。 这 个 特性 使 得 可 以 快速 查 
询 列 的 子 集 数据 。 键 - 值 对 存储 意味 着 行 是 按照 一 个 唯一 键 和 整 行 所 对 
应 的 值 来 获取 的 。HBase 并 没有 提供 一 种 SQL 方言 ， 但 是 可 以 使 用 Hive 
来 查询 HBase 表 。 























Hive 


Hive 是 一 个 数据 仓库 工具 。Hive 对 存储 在 HDFS、HBase 表 或 者 其 他 
存储 上 的 数据 进行 了 抽象 ， 形 成 了 表 。Hive 查 询 语言 (HQL) 是 结构 化 
查询 语言 (SQL) 的 方言 。 


Hive 但 询 语言 (HQL) 


Hive 查 询 语 言 (HQL) 是 Hive 自 己 的 结构 化 查询 语言 (SQL) 的 一 
种 方言 。 通 常 缩写 为 HiveQL 或 者 HQL。 


输入 文件 格式 《Input Format) 


输入 文件 格式 决定 了 输入 数据 流通 常 是 来 自 于 文件 的 ) 是 如 何 分 
制 成 记录 的 。SerDe 用 于 将 记录 分 制 成 列 。 用 户 自 定义 的 输入 文件 格式 
可 以 在 创建 表 时 通过 INPUTFORMAT 语 句 来 进行 指定 。 默 认 的 输入 文件 
格式 也 就 是 默认 的 STORED AS TEXTFILE 语 句 实际 是 就 是 
org.apache.hadoop.mapreduce.lib.input.TextImnputFormat 的 简写 形式 。 输 出 
文件 格式 〈Output Format) 是 类 似 的 。 


JDBC 


Java 数 据 库 连 接 API (JDBC) 提供 了 使 用 Java 代 码 访问 包括 Hive 的 
SQL 系统 的 接口 。 


Job 任 务 


在 Hadoop 上 下 文中 ， 一 个 Job 就 是 一 个 提交 给 MapReduce 的 独立 的 
工作 流 。 其 中 包含 有 需要 执行 一 个 完整 的 计算 ， 从 读 取 输入 到 生成 输出 
的 完整 过 程 。MapReduce 框架 中 的 JobTracker 会 将 其 分 解 成 一 个 或 者 多 
个 可 以 在 集群 中 分 布 式 执行 的 task 任 务 。 








JobTracker 


JobTracker 是 使 用 Hadoop 的 MapReduce 的 所 有 任务 (Job) 的 最 顶层 
控制 器 。JobTracker 接 收 提 交 上 来 的 Job， 决 定 执行 什么 task 以 及 分 友 到 
哪里 去 执行 ， 监 控 他 们 的 执行 过 程 ， 并 且 在 需要 的 时 候 重 跑 失 败 的 
task， 其 还 提供 了 一 个 网 页 控制 台 界 面 用 户 监 控 Job 和 task 的 执行 过 程 ， 
BATHS, Se. 


任务 流 (Job Flow) 

任务 流 是 亚马逊 弹性 MapReduce (EMR) 中 使 用 到 的 一 个 术语 ， 其 
表示 在 一 个 为 特定 目的 而 创建 的 临时 EMR 集 群 上 执行 的 一 系列 连续 的 
job 任务 。 

JSON 


JSON B} JavaScript Object Natation， 它 是 一 种 轻 量 级 的 数据 交换 格 
式 ， 非 常 适 合 于 服务 器 与 JavaScript 的 交互 ， 因 此 常用 于 网 络 应 用 程 





Map 阶 段 


Map 阶 段 是 指 MapReduce 处 理 过程 中 进行 Map 操 作 的 那个 阶段 ， 在 
这 个 阶段 输入 的 键 - 值 对 集合 会 转换 成 一 个 新 的 键 - 值 对 集 。 对 于 每 个 输 
入 键 - 值 对 ， 可 以 产生 零 到 多 个 输出 键 - 值 对 。 输 入 和 输出 键 以 及 输入 和 
输出 值 可 能 是 完全 不 同 的 。 


MapR 





MapR 是 一 个 商业 版 本 的 Hadoop， MapR 文 件 系统 (MapR-FS) 代 
蔡 了 HDFS。MapR-FS 是 一 个 高 性 能 的 分 布 式 文件 系统 。 


MapReduce 


MapReduce 是 Google 提 出 的 一 个 软件 架构 ， 用 于 大 规模 数据 集 的 并 
行 运算 。 其 将 计算 过 程 分 为 两 个 过 程 映 射 (Map ) 过 程 和 化 简 
(Reduce) 过 程 ，map 过 程 用 来 把 一 组 键 - 值 对 映射 成 一 组 新 的 键 - 值 
对 ， 并 通过 指定 并 发 的 Reduce 过 程 ， 来 你 证 所 有 了 映射 的 键 - 值 对 中 的 
一 个 共享 相同 的 键 组 。MapReduce 通 过 把 对 数据 集 的 大 规模 操作 分 发 给 





网 络 上 的 每 个 节点 实现 可 靠 性 。 每 个 节点 会 周期 性 的 把 完成 的 工作 和 状 
态 的 更 新 报告 回来 。 如 果 一 个 节点 保持 沉默 超过 一 个 预 设 的 时 间 间 隔 ， 
主 节点 《类 同 Google 档 案 系 统 中 的 主 服务 器 ) 记录 下 这 个 节点 状态 为 死 
亡 ， 并 把 分 配给 这 个 节点 的 数据 友 到 别 的 节点 。 每 个 操作 使 用 命名 文件 
的 不 可 分 割 操作 以 确保 不 会 发 生 并 行 线程 间 的 冲突 。 当 文件 被 改名 的 时 
候 ， 系 统 可 能 会 把 他 们 复制 到 任务 名 以 外 的 妨 一 个 名 字 上 去 。 


元 数据 存储 (Metastore) 


元 数据 存储 是 指 存储 如 表 结 构 信息 这 样 的 “元 数据 ”信息 的 服务 。 
Hive 需 要 使 用 元 数据 存储 服务 才能 够 使 用 。 默 认 情 况 下 ，Hive 使 用 的 元 
数据 存储 是 内 置 的 Derby SQL Server 服 务 ， 其 提供 了 有 限 的 ， 单 进程 的 
SQL 文 持 。 生 产 环境 下 需要 使 用 像 MySQL 这 样 的 提供 全 功能 的 关系 型 数 
据 库 作为 元 数据 存储 。 


NoSQL 
NoSQL 指 的 是 非 关 系 型 数据 库 ， 不 文 持 关系 型 模型 的 数据 管理 、 结 


构 化 查询 语言 、 以 及 传统 的 update 操 作 。 这 些 数据 存储 将 这 些 功 能 剔除 
挥 了 ， 目 的 古 为 大 数据 处 理 提供 更 有 具 成 本 效益 的 可 伸 坎 性 、 高 可 用 性 ， 























ODBC 


ODBC 全 称 是 开放 数据 库 连 接 API， 其 为 其 他 应 用 程序 提供 了 访问 
SQL 系统 的 接口 ， 当 然 包 括 访问 Hive 的 接口 。 通 过 来 说 Java 应 用 程序 是 
使 用 JDBC API 进 行 连接 的 。 


输出 文件 格式 〈Output Format) 


输出 文件 格式 〈OutputFormat) 决定 了 记录 是 如 何 写 入 到 输出 流 中 
的 ， 通 常 是 如 何 写 入 到 文件 中 的 。 一 个 SerDe 处 理 了 如 何 将 每 行 记录 序 
列 化 成 合适 的 字 节 流 的 问题 。 可 以 在 创建 表 语句 中 通过 
OUTPUTFORMAT 语 句 执行 用 户 自 定义 的 文件 输出 格式 。 默 认 的 输出 格 
式 是 STORED AS TEXTFILE, 其 是 org 
.apache.hadoop.hive.ql.io.HiveIgnoreKeyText 
OutputFormat 的 简化 形式 。 相 关 的 可 查看 下 输入 文件 格式 
(InputFormat) 。 








分 区 


分 区 是 表 数 据 的 一 个 子 集 ， 同 一 个 分 区 下 的 分 区 字段 内 容 是 相同 
的 。 在 Hive 中 ， 和 大 多 数 文 持 数据 分 区 的 数据 库 一 样 ， 每 个 分 区 都 对 应 
独 不 同 的 物理 存储 路 径 〈 在 Hive 中 就 是 表 路 径 下 的 子 文件 夹 ) 。 使 用 分 
区 有 几 个 好 处 。 分 区 字段 的 值 在 分 区 数据 中 其 实 是 没有 的 ， 这 样 就 可 以 
节约 存储 空间 ， 同 时 对 于 使 用 WHERE 语句 的 查询 来 说 通过 限制 特定 的 
分 区 字段 可 以 减少 输入 的 数据 量 而 提高 执行 效率 ， 因 为 这 样 可 以 避免 全 
表 扫 描 。 同 样 可 以 参考 下 动态 分 区 。 


Reduce 




















Reduce 过 程 是 MapReduce 处 理 过 程 的 一 部 分 ， 在 这 个 过 程 里 来 自 
map 阶 段 的 键 - 值 对 会 被 进行 处 理 。MapReduce 的 一 个 重大 的 特性 就 是 来 
自 所 有 map task 产 生 的 键 - 值 对 ， 具 有 相同 键 的 值 会 被 分 发 到 同一 个 
reduce task 中 ， 因 此 值 的 集合 可 以 根据 实际 情况 进行 “化 简 ”。 例 如 ， 一 
组 整数 可 以 进行 相 加 或 者 求 平均 计算 ， 而 一 组 字符 串 可 以 进行 去 重 处 


理 ， SEE 
关系 模型 


关系 模型 是 数据 库 管理 系统 的 最 妾 见 的 模型 ， 其 是 基于 数据 组 织 和 
数据 操作 的 逻辑 模型 。 数 据 结构 的 声明 以 及 如 何 操作 数据 都 是 由 用 户 定 
义 的 ， 最 常见 就 是 使 用 结构 化 查询 语言 《SQL ) 。 而 相应 的 具体 实现 会 
将 这 些 声明 转换 成 存储 、 获 取 和 操作 数据 等 处 理 过 程 。 


S3 


S3 上 亚马逊 网 络 服务 (AWS) 的 分 布 式 文 件 系统 。 在 运 
行 MapReduce 任 务 时 可 以 和 HDFS 结 合 使 用 或 者 替代 HDFS 进 行使 用 。 


SerDe 


序列 化 器 / 反 序列 化 器 或 简写 为 SerDe， 用 于 将 记录 的 字 解 析 成 列 或 
字段 ， 也 就 是 反 序列 化 过 程 。 它 也 用 来 创建 这 些 记 录 字 市 (也 就 是 序列 
化 过 程 )。 相 反 ， 输 入 格式 〈InputFomat) 用 于 将 一 个 输入 流转 换 为 记录 
而 输出 格式 〈OutputFormat) 用 来 将 记录 写 到 一 个 输出 流 。 在 创建 Hive 
表 时 可 以 指定 SerDe。 默 认 的 SerDe 文 持 在 第 3.3 节 “文本 文件 数据 编码 ”中 

















所 介绍 的 字段 分 隔 符 ， 讨 以 及 各 种 优化 如 简易 解析 。 
结构 化 查询 语言 (SQL) 


结构 化 查询 语言 (SQL) 是 一 种 实现 了 关系 模型 查询 和 操纵 数据 的 
语言 。 缩 写 为 SQL。 对 于 SQL 虽然 有 一 个 经 历 了 很 多 次 修改 的 ANSI 标 
准 ， 但 是 所 有 的 SQL 方 言 都 可 以 广泛 地 添加 使 用 自 定义 扩展 和 改变 。 


Task 


在 MapReduce 上 下 文中 ，task 是 在 单个 集群 节点 上 工作 的 最 小 单 
元 ， 其 作为 整个 job 的 一 个 处 理 单元 。 默 认 情 况 下 ， 每 个 task 都 会 司 动 单 
独 的 一 个 JVM 进 程 。 每 个 map 和 reduce 调 用 都 有 其 自身 的 task。 


Thrift 


Thrift 是 Facebook 发 明 的 RPC 系 统 ， 其 被 集成 到 了 Hive 中 。 远 程 进程 
可 以 通过 Thrift 发 送 Hive 语 法 到 Hive 中 。 


用 户 自 定义 聚合 函数 (UDAF) 


用 户 目 定义 聚合 函数 CUDAF) 是 指 输入 为 多 行 〈 或 多 行 的 多 个 字 
段 ) 而 产生 唯一 个 “聚合 的 ”结果 数据 的 用 户 自 定义 函数 ， 例 如 求 输入 数 
据 的 行 数 ， 计 算 一 组 值 的 和 或 平均 值 ， 等 等 。 这 个 术语 简称 UDAF。 请 
参考 第 13 章 “用 户 自 定义 函数 ”和 第 13.9 节 “用 户 自 定义 聚 合 函 数 ”。 


用 户 目 定义 函数 (UDF) 


用 户 自 定义 函数 CUDF) 是 指 Hive 用 户 用 于 扩展 其 处 理 操作 所 实现 
的 函数 。 有 时 这 个 术语 也 包含 Hive 内 置 的 函数 ， 其 也 通常 表示 那些 一 条 
输入 行 〈 或 一 行 数据 中 茶 个 列 ) 并 产生 一 条 输出 〈 例 如 ， 并 不 会 改变 输 
出 记录 的 行 数 ) 的 函数 。 关 于 UDF 的 更 多 信息 ， 请 参考 第 13.9 人 “用 户 目 
定义 聚合 函数 ”和 第 13.10 节 “用 户 自 定义 表 生 成 函数 ”。 


用 户 目 定义 表 生 成 函数 (UDTEF) 
用 户 自 定义 表 生 成 函数 CUDTF) 是 指 可 以 将 每 条 记录 的 一 个 字段 


的 值 转换 生成 多 行 记录 的 用 户 目 定义 函数 。 例 子 如 explode 函 数 ， 这 个 函 
数 可 以 将 一 个 数组 字段 的 值 转换 成 多 行 ， 而 且 对 于 Hive v0.8.0 和 更 高 版 

















本 ， 可 以 将 map 类 型 的 字段 转换 成 键 和 值 的 多 行 数据 。 关 于 UDTF 的 详 
~ o WAS B13 HF Ae CBM 13.9 TAP Ae CAR R 








书 末 说 明 


《Hive 编 程 指南 》 书 封 钾 上 的 生物 是 一 只 贡 边 胡 蜂 〈( 胡 蜂 属 的 〉， 
还 有 它 的 蜂 代 。 黄 边 胡 蜂 是 南美 的 唯一 的 一 种 胡 蜂 ， 其 是 在 欧洲 移民 时 
币 到 美洲 的 。 这 种 胡 蜂 可 以 在 整个 欧洲 以 及 亚洲 大 部 分 地 区 找到 ， 其 可 
以 根据 不 同 气候 按照 需要 通过 不 同 的 蜂 玉 建造 技术 来 进行 适应 。 


胡 蜂 是 一 种 社会 性 昆虫 ， 和 蜜蜂 、 蚂 蚁 是 一 样 的 。 胡 蜂 的 蜂 梨 里 有 
一 个 蜂 后 ， 以 及 少量 的 雄性 胡 蜂 ， 而 大 部 分 都 古 瞧 性 的 工蜂 。 雄 蜂 的 使 
命 束 是 和 蜂 后 进行 繁殖 ， 其 后 不 久 它 们 束 会 死去 。 而 雌性 工蜂 的 作用 束 
古 建造 蜂 录 ， 搬 运 食物 ， 以 及 照顾 蜂 后 的 卵 。 


胡 蜂 的 梨 和 本 书 是 一 致 的 ， 因 为 蜂 梨 是 由 木 浆 形 成 的 多 层 六 角形 格 
子 构成 的 。 最 终 形成 的 结果 就 是 一 个 附着 在 短 杆 上 的 梨 型 洁 。 在 霖 冷 地 
区 ， 冬 天 的 时 候 胡 蜂 会 放弃 蜂 曲 而 转移 到 空 的 树干 里 甚至 是 人 类 的 房屋 
里 ， 蜂 后 和 蜂 卵 会 一 直 符 到 天 和 气 变 暖 为 止 。 蜂 卵 贱 化 出 新 的 胡 蜂 然后 形 
成 新 的 殖民 地 ， 而 蜂 呈 会 进行 再 次 构造 。 本 书 的 封面 图 片 来 自 于 
Johnson 的 《博物 学 》。 














欢迎 来 到 异步 社区 ! 


异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 出 版 社 旗 下 IT 专业 图 书 旗 
舰 社 区 ， 于 2015 年 8 月 上 线 运营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 IT 专业 优质 出 版 资源 和 编 
得 策划 团队 ， 打 造 传统 出 版 与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印刷 与 POD 按 需 印刷 结合 的 出 版 平台 ， 提 供 最 新 技术 资讯 
为 作者 和 读者 打造 交流 互动 的 平台 。 
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近 吕 活动 + 更 多 











EE mS | 满 100 元 减 20 元 、 满 150 元 碱 35 元 、 满 200 元 减 50 元 + 更 全 
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一 iWeb 峰 会 北京 站 即将 开启 , AHTMLSS 





每 一 次 派 公 高 呼 嫩 时 行 业 的 影响 ， 每 一 天 无 数 人 

葡 葡 业 业 的 勤奋 ，2016 接 起 ! 未 吧 ，8 月 27 日 ， 
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数 党 科 字 实战 手册 软 控 能 : REZIME 
(R+Python yaa 





每 周 半 价 宅 子 书 + 更 念 


= rytho hn 编程 入 门 与 实 族 ( 第 2 


-一 





Python 游戏 编程 快速 上 。 机 器 学 习 项 目 开发 实战 。 酌 苦 派 Python 编 程 入 门 。 像 计算 机 科学 家 一 样 叶 [8] Richard Blum $E, Christine 
= 与 实战 {第 2 版) 老 python ( 第 2 版 ) Bresnahan sets (作者 ) IFE 
马 立新 ( 译 者 ) 


社区 里 都 有 什么 ? 
购买 图 书 

我 们 出 版 的 图 书 涵盖 主流 IT 技 术 ， 在 编程 语言 、Web 搁 术 、 数 据 科 
学 等 领域 有 众多 经 典 畅 销 图 书 。 社 区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 
400 多 种 ， 部 分 新 书 实 现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 布 新 
书 书 讯 。 
下 载 资源 

社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 


另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 
可 以 免费 下 载 。 


与 作 译 者 互动 


很 多 图 书 的 作 译 者 已 经 入 驻 社 区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问 
题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 趣 
的 故事 ， 还 可 以 参与 社区 的 作者 访谈 栏目 ， 回 您 关注 的 作者 提出 采访 题 
目 。 











灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 民 
邮电 出 版 社 书 库 发 货 ， 电 子 书 提 供 多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 用 户 可 以 第 一 时 间 
买 到 心仪 的 新 书 。 


用 户 帐 户 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 买 图 书 





时 ， 在 RE 末 里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 

















购买 本 电子 书 的 读者 专 享 异 步 社 区 优惠 券 。 使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购 书 
时 输入 “57AWG”， 然后 点 击 “ 使 用 优惠 码 ”， 即 可 享受 电子 书 8 折 优 惠 〈 本 优惠 券 只 可 使 用 一 
R) o 


纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 价 格 优惠 ， 一 次 购 
买 ， 多 种 阅读 选择 。 





























软 技能 : 代码 之 外 的 生存 指南 

(Š Z. F5 (John Z. Sonmez ) (作者 ) =I GS) ” 杨 海 玲 (EGRA) 
人 | 下 | 9.0K 
分 字 EF OBE 阅读 


这 是 一 本 真正 从 “人 ” ( 而 非 按 术 也 非 管理 ) 的 角度 关注 软件 开发 人 员 已 身 发 展 的 蔬 。 书 中 论述 的 
内 容 降 涉及 生活 习惯 ， 又 包括 导 维 方式 ， 苹 显 技术 中 “人 ”的 因素 ,全面 讲 解 软 件 行业 从 业 人 员 所 
需 知 章 的 所 有 “ 软 技能 ”。 

本 书 暴 焦 于 软件 开发 人 员 生 活 的 方方面面 , 从 揭秘 画 试 的 流程 到 精 耕 绍 作出 一 份 杀手 级 简历 ,从 创 
建 大 季 欢 迎 的 博客 到 打 迁 你 的 个 人 品牌 ， 从 提高 全 己 工作 效 至 到 与 如 何 与 “拖延 症 ” 做 斗争 ， 基 至 
包括 如 何 投资 不 动产 ,如何 关注 语 己 的 健康 , 

本 书 共 分 为 职业 简 、 生 我 营销 简 、 学 习 简 、 人 生产力 简 、 理 财 简 、 健 身 简 、 精 神 簿 等 七 简 ， 概括 了 软 


è 纸 质 版 +5900 着 46.02(78 折 ) 


s aze vso = Ez 


© 电子 版 + 纸 质 版 ¥59.00 


社区 里 还 可 以 做 什么 ? 
提交 勘误 


您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 
积分 。 热 心 勘 误 的 读者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 


写作 

社区 提供 基于 Markdown 的 写作 环境 ， 台 欢 写作 的 您 可 以 在 此 一 试 
身手 ， 在 社区 里 分 享 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 上 自 出 版 的 乐 
趣 ， 轻 松 实现 出 版 的 梦想 。 


am A T E 





会 议 活 动 早 知 道 
您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 


加 入 异步 


扫描 任意 二 维 码 都 能 找到 我 们 : 








异步 社区 





微 信 服务 号 











QQ 群 : 368449889 


社区 网 址 : www.epubit.com.cn 


官方 微 信 : 异步 社区 


官方 微 博 : @ 人 邮 异 步 社区 ，@ 人 民 邮 电 出 版 社 -信息 技术 分 社 


投稿 及 咨询 : contact@epubit.com.cn 


